Tipologías de corpus

abril 23, 2008 en 1:14 pm | Publicado en Language Resources | Deja un comentario

Los principales parámetros para establecer tipologías de corpus se centran en:

  • La modalidad de la lengua: escrita, hablada
  • El número de lenguas a que pertenecen los textos
  • El tamaño o cantidad de textos que conforman el corpus
  • El carácter abierto o cerrado del corpus
  • La variedad lingüística o el grado de especialización de los textos
  • El período temporal que abarcan los textos
  • El tratamiento aplicado al corpus: información añadida a los textos

En relación con la lengua hay :

  • Corpus monolingües: están formados por textos de una sola lengua. Se recopilan con el objetivo de dar cuenta de una lengua o variedad lingüística.
  • Corpus bilingües o multilingües: están formados por textos de dos (bilingües) o más lenguas (multilingües) sin que, en principio, sean traducciones unos de otros y sin compartir criterios de selección.
  • Corpus comparables (“paired texts”): consisten en una selección de textos en más de una lengua o variedad lingüística parecidos en cuanto a sus características y que comparten criterios de selección. Se utilizan sobre todo para comparar variedades de la lengua en estudios contrastivos.
  • Corpus paralelos (“bi-texts”): recogen textos en más de una lengua (bilingües o multilingües) pero, a diferencia de los anteriores, se trata del mismo texto traducido a una o más lenguas. El más sencillo consta del original y su traducción. Son especialmente útiles en la traducción automática y en entornos bilingües o multilingües.
  • Corpus alineados: son corpus paralelos en los que, para facilitar su explotación, los textos están dispuestos unos al lado de otros en párrafos o frases, de tal forma que sea más fácil extraer las equivalencias de traducción: aquellos elementos que son traducciones mutuas. Se utilizan como entrenamiento para sistemas de traducción automática basados en estadísticas.

Todo depende del texto, de su extensión, de su especeficidad, de la cantidad, del proceso al que se someta.

Corpus

Anuncios

Dejar un comentario »

RSS feed for comments on this post. TrackBack URI

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Blog de WordPress.com.
Entries y comentarios feeds.

A %d blogueros les gusta esto: