Diacrítica automática

Es un instrumento lingüístico que ofrece la solución para la complementación de signos de diacrítica en dos niveles:

1. El módulo asociará a cada palabra sin diacrítica todas las variantes correctas posibles con todos los signos de diacrítica.

2. Una solución completamente automática transformará un texto sin diacrítica al texto con signos de diacrítica empleando un modelo estadístico de lengua.

Parte lingüística

La solución se basa en la descripción formal de morfología gracias a la que somos capaces de encontrar todas las variantes correctas posibles para cada palabra sin diacrítica.

Soluciones de software

La primera parte de la solución es muy simple. Se trata de una función que busca todas las posibilidades con signos de diacrítica de una palabra dada. Se apoya solamente en el diccionario morfológico de la lengua concreta. Su tamaño suele ser de 1 MB como máximo.

La segunda parte es más compleja desde el punto de vista de la memoria porque trabaja con un modelo cuyo tamaño es de unos giga-bytes. Es posible insertar también un texto en el formato HTML, el módulo guarda la forma original y solo añade sus signos que marcan las palabras cambiadas.