Búsqueda full-text

Al crear un sistema de software, en el cual se necesita la búsqueda full-text, apreciará este componente que le facilitará encontrar palabras sin mirar su forma concreta. Al buscar la expresión cambio de bolsa el programa encontrará al mismo tiempo también un texto con términos como evolución del cambio o solamente la voz cambio bolsa. Con esos fines se ha creado el presente componente que tiene dos funciones:

Con la forma básica (lema) se entiende generalmente el nominativo singular de los sustantivos, p. ej. bolsa. En el caso de los verbos se considera la forma básica el infinitivo, p. ej. buscar. Algunas lenguas admiten excepciones, por ejemplo, en búlgaro que carece del infinitivo funciona como la forma básica de los verbos la primera persona de singular. El húngaro dispone de infinitivo pero como lema suele emplear la tercera persona de singular.

Parte lingüística

El programa se basa, igual que un corrector ortográfico, en la descripción formal de la morfología de la lengua concreta añadiéndole otra información, es decir, todas las categorías gramaticales:

Encontrar la forma básica de una palabra no es tan fácil como parece. No existen solo las formas regulares, sino que hay que tener en cuenta una amplia escala de diferentes irregularidades. Nos referimos a los pares de palabras, como por ejemplo: querer-quiero, tener-tengo, huir-huyo, oler-huele, pez-peces, etc. Con una situación similar podemos encontrarnos en diferentes idiomas. Por ejemplo, el inglés forma los siguientes pares: come-camebreak-broken o go-went.
Otro problema surge en el caso de la homonimia. En muchas palabras no queda claro de qué base derivan, por ejemplo, la forma camino puede ser tanto el sustantivo que designa a la tierra hollada por donde se transita, como la primera persona de singular del presente indicativo del verbo caminar. Existen muchos ejemplos de este tipo y por eso no es de sorprender cuando el programa encuentre más de un resultado. Pero esté seguro de que todos serán correctos.

Soluciones de software

Nuestras soluciones de software son muy económicas. Sabe por ejemplo, ¿cuántas formas diferentes de las voces existe en checo? Más de 6,7 millones. Esta cantidad de palabras más la información morfológica cabe en un archivo de 1 MB. Podemos decir que un bit contiene tres palabras checas.

Funciones accesibles 

El soporte de la búsqueda full-text lo ofrecemos para muchas lenguas y plataformas (véase la tabla). Para hacer la búsqueda todavía más confortable le recomendamos que emplee otro de nuestros componentes - Diccionario de sinónimos. En el caso de la búsqueda multilingüe es posible combinarlo con nuestras tecnologías de traducción y para buscar en los archivos de audio y vídeo con las tecnologías del habla.

Pruébelo

Pruebe las posibilidades de la búsqueda morfológica en varios idiomas en la aplicación Lingea Lexicon. Sin embargo, el uso prioritario  de la búsqueda full-text se centra en los sistemas de búsqueda de diferentes productos y en los sistemas empresariales.