lunes, 25 de octubre de 2010

Web semántica

Internet ha registrado un crecimiento muy importante en los últimos años, tanto en el volumen de documentos como en la diversidad de idiomas y formatos, teniendo como consecuencia, entre otras, la dificultad para encontrar la información que se Busca.


La Web actual es un repositorio enorme de documentos, el cual podría ser mucho mejor explotado si contara con una estructura que lo organice. Hay una tendencia corriente a transformar la Web actual en una Web Semántica, donde documentos y aplicaciones estén tenidos de significado. Esto es una tarea de dimensiones mayúsculas, que involucra desde llegar a consensos respecto a la semántica de los distintos objetos existentes, hasta la creación de la meta data que relacione la enorme cantidad de documentos publicados en Internet con los conceptos definidos Las aplicaciones multilingües son aquellas con habilidades para procesar documentos en mas de un idioma. Ante una consulta de un término en un idioma, devuelven los documentos que lo contienen, con independencia del idioma en que se encuentra el documento y del idioma del término de la consulta.

Un enfoque para la construcción de estas aplicaciones, es la creación de corpus paralelos de los documentos en los que se va a realizar la búsqueda, esto es, cada documento esta traducido a los otros idiomas de interés. Ante una consulta en un idioma, la aplicación puede devolver documentos en más de un idioma, aunque se trata de los mismos documentos traducidos.

Otro enfoque a considerar es la utilización de ontologías multilingües. Las ontologías son un concepto relativamente nuevo en la informática, y pueden ser utilizadas para representar el dominio sobre el que trata la colección de documentos. En el ámbito del Procesamiento del Lenguaje Natural, las ontologías se están empleando, entre otros usos, para construir representaciones independientes de la lengua que puedan servir de punto de encuentro entre dos o más lenguas naturales.

Si bien alcanzar la Web Semántica es por el momento una utopía, se ha estado trabajando en la recuperación de información bilingüe a pequeña escala, creando para ciertos dominios en particular, la estructura semántica requerida.




FUENTES:

La web semántica. En: [Línea]. http://www.fing.edu.uy/inco/grupos/pln/prygrado/InformeRecBilWS.pdf









Recuperación de información bilingue en la Web semántica

Internet se ha transformado en los últimos anos en un agente protagónico de difusión del conocimiento. Su crecimiento se ha producido de manera desordenada, sin una estructura que la organice, lo que ocasiona que muchas veces la información no pueda ser recuperada satisfactoriamente.

Se ha planteado la idea de transformar la Web actual en una Web Semántica, donde documentos y aplicaciones estén tenidos de significado.

El enfoque realizado en este proyecto fue considerar un dominio de conceptos acotado y buscar un esquema de representación adecuado, como una ontología multilingüe, la que se construyo tomando en consideración trabajos previos. El dominio elegido dio lugar a un gran número de instancias de la ontología, haciendo imprescindible efectuar una carga masiva automática. Para efectuar recuperación de información no basta con construir y poblar la ontología bilingüe, sino que es necesario encontrar una manera de vincular las entidades definidas en la ontología con el conjunto de documentos sobre los que se efectuaran las búsquedas.

Esta actividad recibe el nombre de anotación semántica, y puede ser realizada con distintos grados de automatización. Debido a la gran cantidad de paginas a anotar, en este trabajo se efectuó anotación semántica automática. En la misma, se observo que era necesaria cierta corrección manual posterior sobre las anotaciones, así que una vez finalizado el proceso de anotación se analizo la manera de revisar los metadatos generados y corregirlos.

Finalmente, se construyo una aplicación que permite hacer búsquedas semánticas sobre el dominio de conceptos elegido. Dicha aplicación devuelve documentos en español e ingles relevantes a la consulta, marcando en el texto las entidades identificadas. Cabe acotar que se trata de documentos distintos, no de versiones en español e ingles del mismo documento.

Se hizo una comparación entre los resultados obtenidos por el buscador semántico construido y un buscador por palabra clave común. Considerando los indicadores de Recall y Precisión, los valores alcanzados afianzan la idea de continuar el trabajo en el enfoque adoptado.




Fuente:
Recuperación de información en la web semántica. En: [Linea]. http://www.fing.edu.uy/inco/grupos/pln/prygrado/InformeRecBilWS.pdf