Similar presentations:
Córpora, neoloxía e terminoloxía
1.
Conceptos emetodoloxía
Córpora, neoloxía e terminoloxía
2.
Córpora, neoloxía e terminoloxía1. Aspectos teóricos do uso de córpora
en terminoloxía
2. Os estudos terminolóxicos e neolóxicos
baseados en córpora
3. Panorama dos córpora especializados
de orientación terminolóxica
3.
1. Aspectos teóricos do uso de córpora enterminoloxía
Conceptos básicos sobre corpora
Un corpus lingüístico escrito é un conxunto de textos
almacenados en formato electrónico, agrupados por
diferentes criterios para o estudo dunha lingua en xeral
ou de determinados aspectos dela (o vocabulario
especializado, por exemplo).
Normalmente están formados por grandes cantidades de
textos (millóns de palabras), aos que os se accede a
través de varios programas que procesan a información
requirida para levar a cabo estudos de lexicografía e
terminolóxía. Estas ferramentas de recuperación están
orientadas ó estudo cuantitativo e cualitativo dos datos.
O traballo con corpus permite, por exemplo, avaliar a
representatividade de formas codificadas nun estándar
4.
1. Aspectos teóricos do uso de córpora enterminoloxía
• Grazas ao estudo de corpus comezouse a
cuestionar que a palabra sexa a unidade
básica do significado.
• Esta constatación tivo unha relevancia
importante na renovación das teorías
terminolóxicas xa que se consideraron os
termos como unidades que adquirían o seu
valor especializado nos textos, dependendo,
entre outros factores, da súa situación no
texto e na oración.
• As gramáticas tradicionais tamén están a
cambiar a súa orientación, xa que se
considera que o estudo do léxico está
5.
1. Aspectos teóricos do uso de córpora enterminoloxía
• En Galicia, o proxecto do Tesouro Informatizado
da Lingua Galega (www.tilg.com) ten como
obxectivo último a elaboración dun grande
dicionario para a lingua galega.
• As distintas orientacións no uso dos corpora
levaron a que se fosen definidos como:
Corpus: A collection of pieces of language* that
are selected and ordered according to explicit
linguistic criteria in order to be used as a sample
of the language. EAGLES (Expert Advisory Group
on Language Engineering Standards) (1996a: 4)
6.
1. Aspectos teóricos do uso de córpora enterminoloxía
• Calidade ou cantidade?
• Para o caso dun corpus terminolóxico feito en
Galicia, a orientación cara á cantidade parece
a máis realista. Dada a “relativa” escaseza de
textos en certos dominios, é necesario incluír
o maior número de textos posibles (sempre
que haxa un mínimo preestablecido de
calidade) para poder formar un corpus que
teña un certo valor para ser estudado. Canto
máis grande sexa ese corpus maior
posibilidade
teremos
de
que
ofreza
información sobre un determinado espectro
7.
1. Aspectos teóricos do uso de córpora enTipos de corpus terminoloxía
Corpora bilingüe (ou multilingüe)
Corpus de referencia (Reference corpus)
Corpus monitor (Monitor corpus)
Corpus oral (Spoken corpus)
Corpus de fragmentos textuales (Sample
corpus)*
• Córpora especiais ou especializados
*Non ten moito sentido para o noso traballo.
8.
1. AspectosTipos
de corpus teóricos do uso de córpora en
terminoloxía
• Corpora bilingüe (ou multilingüe): os corpora
bilingües están sendo usados en proxectos de
tradución automática ou en estudos contrastivos.
Ex.: CLUVI (Corpus Lingüístico do SLI, UVigo) ou
proxecto NERC (Network of European Reference
Corpora)
• Corpus
de
referencia
(Reference
corpus):
constitúe
unha
mostra
representativa
das
variedades máis importantes dunha lingua, das súas
estruturas e vocabulario. Ex.: en galego, CORGA (a
partir de 1975) ou TILGa (Tesouro Informatizado da
Lingua Galega, con textos dende 1612); en inglés,
British National Corpus (www.natcorp.ox.ac.uk); en
español, CREA (http://corpus.rae.es/creanet.html).
9.
1. Aspectosdo uso de córpora en
Tipos
de corpus teóricos
(...)
terminoloxía
• Corpus oral (Spoken corpus): recolle unha serie de
fragmentos
de
conversas
espontáneas,
representativas dunha(s) variedade(s) da lingua que
se queira estudar, ou ben aquel que recolle textos
escritos destinados a ser lidos.
• Córpora especiais ou especializados: O termo
corpus especial aplícase a un corpus pequeno deseñado
cun fin específico. Este tipo de corpus é diferente ó
subcorpus, xa que non posúe as características dun
corpus xeral ou de referencia nin serven, en principio,
para describir usos representativos da lingua xeral.
Argumentado así poderiamos considerar un corpus
especializado como un tipo de corpus especial xa que se
utilizan para ser representativos dunha variedade
lingüística específica ou dunha sublinguaxe determinada
10.
3. Panorama de córpora de utilidade para aterminoloxía
A seguir referirémonos a algúns corpora que
teñen
utilidade
para
a
terminoloxía.
Non
aparecen unicamente os especializados, senón
tamén outros que poden ser utilizados para a
documentación de termos (os córpora de
referencia especialmente).
[Non será unha lista exhaustiva.]
11.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
1)Corpus de referencia do galego actual. CORGA:
http://corpus.cirp.es/corga
• Case 32 millóns de palabras.
• Ten como obxectivo formar unha colección de
textos modernos, dende 1975 ata a actualidade.
• Está ordenado por áreas temáticas: Economía e
política; Cultura e Artes; Ciencias Sociais;
Ciencias e tecnoloxía; Ficción e Outros.
• Fontes: libros, xornais, revistas e textos orais. A
variedade de textos utilizados pode servir para
darnos información sobre a terminoloxía dos
textos de especialidade que se utilicen e tamén
12.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
2) Corpus do galego moderno / Tesouro informatizado da
lingua galega: http://ilg.usc.es/TILG/
• Máis de 26 millóns de palabras.
• Comezou a elaborarse en 1986, no Instituto da Lingua
Galega (ILGa), baixo a dirección de Antón
Santamarina.
• Fontes: textos literarios, xornalísticos, científicos e
técnicos e orais.
• É útil para o traballo terminolóxico e neolóxico porque
inclúe textos de especialidade e tamén de prensa
(difusión da terminoloxía).
• Ademais, por ter un carácter diacrónico (o primeiro
texto recollido é de 1612) pode servir para a análise
13.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
3) Corpus lingüístico da Universidade de Vigo: O
Seminario de Lingüística Informática (SLI) da
Universidade de Vigo comezou hai anos a elaborar
unha serie de corpus escritos que teñen
básicamente dúas orientacións:
a) Corpus paralelos: CLUVI
b) Corpus Técnico do Galego (CTG)
14.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
a) Corpus paralelos: CLUVI
http://sli.uvigo.es/CLUVI/
Dicionario a partir do corpus:
http://sli.uvigo.es/dicionario/
15.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
b)
Corpus
Técnico
do
Galego
(CTG):
http://sli.uvigo.es/CTG/
• O Corpus Técnico do Galego é o único corpus destas
características que existe en Galicia.
• Este repertorio de textos de distintos niveis de
especialización conta con máis de 15 millóns de
palabras
• Áreas temáticas: Dereito, Ecoloxía, Economía,
Informática, Medicina, Socioloxía.
• Os textos pertencen a distintas tipoloxías: manuais,
axudas, menús e mensaxes de programas; artigos
xornalísticos; roldas, foros, grupos de novas; textos
académicos e divulgativos. Isto permite analizar a
16.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
b) Corpus Técnico do Galego (CTG):
• A partir do CTG estase a elaborar unha base de
datos de terminoloxía que se coñece como
Termoteca (Banco de Datos Terminolóxico da
Universidade
de
Vigo:
TUVI):
http://sli.uvigo.es/TUVI/
• Nela pódense consultar fichas terminolóxicas,
ordenadas
conceptualmente,
que
inclúen
información sobre o concepto (relacións
semánticas e adscrición a campos conceptuais)
e a denominación (variantes).
• Única base terminolóxica baseada en corpus que
17.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
c) Corpus Técnico Anotado do Galego (CTAG):
http://sli.uvigo.es/CTAG/
18.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua galega
d) Neoteca - Banco de Datos de Neoloxismos da
Universidade de Vigo: http://sli.uvigo.es/NEO/
• Desde 1998 estase a elaborar unha base de datos de
neoloxismos na Universidade de Vigo, que é o principal
proxecto do Observatorio de Neoloxía (grupo
Tecnoloxías Aplicadas á Lingua Galega, X. Gómez
Guinovart).
• O proxecto céntrase sobre todo no estudo da neoloxía
xeral
pero
tamén
se
recollen
neoloxismos
terminolóxicos, seguindo o criterio de exclusión
lexicográfica. Permítenos observar eses neoloxismos
nos textos de prensa (que se almacenan para formar
un corpus de segmentos de textos) e observar a súa
19.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua portuguesa
-Corpus de Referência do Português Contemporáneo (CRPC):
http://www.clul.ul.pt/pt/investigacao/183-reference-corpusof-contemporary-portuguese-crpc
• Elaborado polo Centro de Lingüística da Universidade de
Lisboa.
• Reúne un total de 311 millóns de palabras de todas as
variedades de portugués.
• Grande cantidade de textos técnicos (cerca de 12 millóns
de palabras de libros científicos e técnicos) que deben
servir para a análise da terminoloxía portuguesa.
-Linguateca: http://www.linguateca.pt
[A consulta non é
tan fácil]
• Reúne distintos corpus: CETENFolha (xornal Folha, Brasil),
CETENPublico (máis de 180 millóns de palabras, xornal
20.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua castelá
Para o español podemos consultar os datos de distintos
córpora:
a) Corpus CREA (Corpus de Referencia del Español Actual):
http://corpus.rae.es/creanet.html
O corpus CREA, con textos dende 1975, inclúe rexistros do
ámbito científico técnico (Bioloxía, Veterinaria, Ecoloxía,
Tecnoloxía, Física, industrias diversas, Metereoloxía, Matemáticas,
Xeoloxía, Química, Informática, Astronomía, enerxía, electrónica,
Zooloxía e Paleontoloxía, Estatística, enxeñerías, Bioquímica,
Botánica).
Pola súa banda, o CORDE (Corpus Diacrónico del Español)
conta con 410 millóns de rexistros.
• O corpus paralelo do IULA (Institut Universitari de Lingüística
Aplicada, UPF): https://www.iula.upf.edu/corpus/corpuses.htm
[Interfaz
de
consulta:
21.
3. Panorama de córpora de utilidade para aterminoloxía
Para a lingua catalá
-Corpus Tècnic del IULA
http://bwananet.iula.upf.edu/
de
la
UPF
(CT-IULA)
• O proxecto de elaboración dun corpus técnico para o
catalán lévao a cabo o grupo IULATERM da
Universitat Pompeu Fabra de Barcelona.
• Procuras en catalán, castelán e inglés.
• Recolle textos escritos en cinco linguas (catalán,
castelán, inglés, francés e alemán) nos dominios
de especialidade do Dereito, a Economía, o Medio
natural, a Medicina e a Informática.
• Está destinado a servir para a extracción de
neoloxismos e termos, extracción de datos para o
22.
3. Panorama de córpora de utilidade para aterminoloxía
A web como corpus
A rede pode desempeñar un papel importante para o traballo en
terminoloxía, xa que é unha fonte cada vez máis grande de textos
electrónicos en diversas linguas e tamén en distintos dominios de
especialidade.
Aínda que a web non se pode considerar como un corpus, xa que
non está feito con ningún criterio específico, podemos entender
que se pode constituír nunha boa fonte para o traballo en
terminoloxía:
a) xa que se poden atopar textos nun determinado dominio
especializado con diferentes graos de especialidade en distintas
situacións comunicativas (especialista-especialista; especialistaaprendente, especialista-leigo, etc.);
b) a rede ten a virtude de estar continuamente adaptándose
ás innovacións que se producen nos distintos dominios de
especialidade e, así, moitos dos textos que alí aparecen recollen
terminoloxía innovadora e
c) permite documentar terminoloxía sen ter que construír un
23.
Bibliografía xeralAhmad, K. Pragmatics of Specialist Terms: The Acquisition and Representation
of Terminology. En Steffens, P. (ed.). Machine Translation and the Lexicon.
Proceedings of the 3rd. International EAMT Workshop, Berlin/NewYork:
Springer Verlag, 1995, p. 51-76.
Ahmad, K. e Rogers, M. Corpus Linguistics and Terminology Extraction. En
Wright, S. E. e Budin, G. (eds.). Handbook of Terminology Management. Vol.2,
Amsterdam/Philadelphia: John Benjamins, 2001, p.725-760.
Alcaraz Varó, E. El inglés profesional y académico. Madrid: Alianza Editorial,
2000.
Atkins, B.T.S. Clear, J. e Ostler, N. Corpus Design Criteria. En Literary and
Linguistic Computing, vol.7, n. 1, 1992, p.1-16.
Bach, C., Saurí, R., Vivaldi, J. e Cabré, M.T. El corpus del IULA: descripció.
Serie Informes, 17, 1997.
Berber Sardinha, A. P. Lingüística de Corpus: histórico e problemática. En
D.E.L.T.A. 16 (2), 2000, p. 323-367.
Bergenholt, H. e Tarp, S. Manual of Specialised Lexicography: the Preparation
of Specialised Dictionaries. Amsterdam/Philadelphia: John Benjamins, 1995.
Biber, D. Conrad, S. & Reppen, R. Corpus Linguistics: Investigating Language
Structure and Use. Cambridge: Cambridge University Press, 1998.
Bowker, L. Towards a Corpus-Based Approach to Terminography. En
Terminology, 3(1), 1996, p. 27-52.
Bowker, L. e Pearson, J. Working with Specialized Language. A practical guide
to using corpora. London/New York: Routledge, 2002.
24.
Bibliografía xeralCabré, M.T. La terminología: representación y comunicación. Barcelona:
Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra, 1999.
EAGLES. EAGLES recommendations for the morphosyntactic annotation of
corpora. Technical Report EAG-TCWG-MAC/R, ILC-CNR. Pisa.
Engwall, G. Not Chance, but Choice: Criteria in Corpus Creation. En Atkins,
B.T.S. e Zampolli, A. (eds.). Computational Approaches to the Lexicon.
Oxford: OUP, 1994, p. 49-82.
Faber, P. ONCOTERM: Sistema bilingüe de información y recursos
oncológicos. En Alcina Caudet, A. e Gamero Pérez, S. (eds.). La traducción
científico-técnica y la terminología en la sociedad de la información.
Castellón de la Plana: Publicacions de la Universitat Jaume I, 2002, p. 177188.
Fillmore, Ch. J. “Corpus linguistics” or “Computer-aided armchair linguistics”.
En Svartvik, J. (ed.). Directions in Corpus Linguistics. Proceedings of Nobel
Symposium 82. Berlin/New York: Mouton de Gruyter, 1992, p.35-60.
Ghadessy, M. Henry A. e Roseberry, R.L. (eds.). Small Corpus Studies and
ELT. Theory and practice. Amsterdam/Philadelphia: John Benjamins, 2001.
Halliday, M. A. K. Some Grammatical Problems in Scientific English. En
Halliday, M.A.K. y Martin, J.R. (eds.). Writing Science: Literary and Discursive
Power, 1993, p.69-85.
25.
Bibliografía xeralLeech, G. The state of the art in corpus linguistics. En Aijmer K. y Altenberg B.
(eds.). English Corpus Linguistics: Studies in Honour of Jan Svartvik. London:
Longman, 1991, p 8-29.
McEnery, T. y A. Wilson. Corpus Linguistics. Edinburgh: Edinburgh University
Press, 1996.
Meyer, I. y Mackintosh, K. The Corpus from a Terminographer's Viewpoint. En
International Journal of Corpus Linguistics, vol. 1(2), 1996, p. 257-285.
Pearson, J. Terms in Context. Amsterdam/Philadelphia: John Benjamins, 1998.
Qi-bo, Z. A quantitative look at the Guangzhou Petroleum English Corpus. En
ICAME Journal, 13, 1989, p.28-38.
Roe, P. Scientific Discourse Analysis. Monographs No 4. ELR Birmingham
University, 1977.
Sánchez, A., Sarmiento, R., Cantos, P. e Simón, J. Cumbre. Corpus lingüístico del
español contemporáneo. Fundamentos, metodología y aplicaciones. Madrid:
SGEL, 1995.
Sinclair, J. Preliminary recommendations on Corpus Typology. EAG-TCWG-CTYP/P.
Pisa: EAGLES. Versión de mayo 1996.
Stubbs, M. Text and Corpus Analysis. Computer-assisted Studies of Language and
Culture. Oxford/Cambridge (MA): Blackwell Publsihers, 1996.
Vargas, Ch. A pragmatic model of text classification for the compilation of specialpurpose corpora. En Mateo, J. y Yus, F. (eds.). Thistles. A homage to Brian Hughes.