‘TeresIA’ es un proyecto coordinado por el Consejo Superior de Investigaciones Científicas (CSIC), cuyo objetivo es la creación de un metabuscador de acceso a terminologías en español aplicando herramientas novedosas de inteligencia artificial. Su principal aplicación será la de facilitar la traducción y redacción de textos.
El proyecto, presentado el pasado mes de diciembre en Bruselas, está financiado con 1,4 millones de euros por la Secretaría de Estado de Digitalización e Inteligencia Artificial del Ministerio de Transformación Digital.
Además, el proyecto está enmarcado en el PERTE de la Nueva Economía de la Lengua, un Proyecto Estratégico que pretende aprovechar el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y competitividad internacional en áreas como la inteligencia artificial, la traducción, la cultura o la ciencia.
Pero ¿qué es TeresIA?
TeresIA es un metabuscador para las terminologías en español –con vocabulario de todo el espectro panhispánico–, que nace con la vocación de convertirse en una herramienta de gran utilidad para traductores e intérpretes del y al español.
Además, TeresIA creará un corpus de literatura científica en español. Diseñará una metodología de extracción de información aplicando técnicas de inteligencia artificial (IA) y Procesamiento del Lenguaje Natural (PLN) para extraer términos, mostrarlos en su contexto, validarlos, sancionarlos, transformarlos a formatos de la web de datos y hacerlos visibles y recuperables en distintos entornos, incluido el metabuscador.
¿Por qué es importante TeresIA?
Identificar términos de una especialidad implica determinar la forma de una palabra para un significado concreto en un campo científico. Sin términos asentados o validados no existe un vocabulario fiable, armonizado o normalizado para la disciplina científica. Solo mediante ese vocabulario normalizado que es la terminología en una lengua se pueden:
- Organizar grandes volúmenes de texto existentes en las bases de datos y sistemas de información, e indizar automáticamente documentos, pues las técnicas que lo permiten necesitan de terminologías validadas.
- Servir de base a la traducción automática y a la humana, aportando eficiencia y garantizando precisión en las equivalencias que se hacen entre los términos y conceptos de un idioma a otro.
- Visibilizar la producción científica generada en español, al poderse describir adecuadamente los ingentes volúmenes de información científica y volcarlos a la red en formato de web de datos.
- Incorporar correctamente el lenguaje de cada disciplina científica a los modelos de lenguaje, que aprenderán a hablar mejor de ciencia en español. Y favorecer el uso adecuado del lenguaje científico en la comunicación y divulgación de la ciencia.
Un proyecto interdisciplinar
‘TeresIA’ es un proyecto ambicioso que requiere del trabajo interdisciplinar y de la colaboración interinstitucional. Esta propuesta ha sido desarrollada por un consorcio del que forman parte, entre otros, el Consejo Superior de Investigaciones (CSIC), que es la institución coordinadora del proyecto; la Dirección General de Traducción de la Comisión Europea (DGT); o el Instituto Cervantes (IC).
La idea primigenia de TeresIA surgió hace más de quince años. El nombre del proyecto quiere reconocer el destacado trabajo de Teresa Cabré en la definición y planteamiento de esta iniciativa.