lunes, 25 de octubre de 2010

Recuperación de información bilingue en la Web semántica

Internet se ha transformado en los últimos anos en un agente protagónico de difusión del conocimiento. Su crecimiento se ha producido de manera desordenada, sin una estructura que la organice, lo que ocasiona que muchas veces la información no pueda ser recuperada satisfactoriamente.

Se ha planteado la idea de transformar la Web actual en una Web Semántica, donde documentos y aplicaciones estén tenidos de significado.

El enfoque realizado en este proyecto fue considerar un dominio de conceptos acotado y buscar un esquema de representación adecuado, como una ontología multilingüe, la que se construyo tomando en consideración trabajos previos. El dominio elegido dio lugar a un gran número de instancias de la ontología, haciendo imprescindible efectuar una carga masiva automática. Para efectuar recuperación de información no basta con construir y poblar la ontología bilingüe, sino que es necesario encontrar una manera de vincular las entidades definidas en la ontología con el conjunto de documentos sobre los que se efectuaran las búsquedas.

Esta actividad recibe el nombre de anotación semántica, y puede ser realizada con distintos grados de automatización. Debido a la gran cantidad de paginas a anotar, en este trabajo se efectuó anotación semántica automática. En la misma, se observo que era necesaria cierta corrección manual posterior sobre las anotaciones, así que una vez finalizado el proceso de anotación se analizo la manera de revisar los metadatos generados y corregirlos.

Finalmente, se construyo una aplicación que permite hacer búsquedas semánticas sobre el dominio de conceptos elegido. Dicha aplicación devuelve documentos en español e ingles relevantes a la consulta, marcando en el texto las entidades identificadas. Cabe acotar que se trata de documentos distintos, no de versiones en español e ingles del mismo documento.

Se hizo una comparación entre los resultados obtenidos por el buscador semántico construido y un buscador por palabra clave común. Considerando los indicadores de Recall y Precisión, los valores alcanzados afianzan la idea de continuar el trabajo en el enfoque adoptado.




Fuente:
Recuperación de información en la web semántica. En: [Linea]. http://www.fing.edu.uy/inco/grupos/pln/prygrado/InformeRecBilWS.pdf 

No hay comentarios:

Publicar un comentario