Information Retrieval

domingo, 7 de noviembre de 2010

Una aproximación al concepto de recuperación de información en el marco de la ciencia de la información

lunes, 25 de octubre de 2010

Web semántica

Internet ha registrado un crecimiento muy importante en los últimos años, tanto en el volumen de documentos como en la diversidad de idiomas y formatos, teniendo como consecuencia, entre otras, la dificultad para encontrar la información que se Busca.

La Web actual es un repositorio enorme de documentos, el cual podría ser mucho mejor explotado si contara con una estructura que lo organice. Hay una tendencia corriente a transformar la Web actual en una Web Semántica, donde documentos y aplicaciones estén tenidos de significado. Esto es una tarea de dimensiones mayúsculas, que involucra desde llegar a consensos respecto a la semántica de los distintos objetos existentes, hasta la creación de la meta data que relacione la enorme cantidad de documentos publicados en Internet con los conceptos definidos Las aplicaciones multilingües son aquellas con habilidades para procesar documentos en mas de un idioma. Ante una consulta de un término en un idioma, devuelven los documentos que lo contienen, con independencia del idioma en que se encuentra el documento y del idioma del término de la consulta.

Un enfoque para la construcción de estas aplicaciones, es la creación de corpus paralelos de los documentos en los que se va a realizar la búsqueda, esto es, cada documento esta traducido a los otros idiomas de interés. Ante una consulta en un idioma, la aplicación puede devolver documentos en más de un idioma, aunque se trata de los mismos documentos traducidos.

Otro enfoque a considerar es la utilización de ontologías multilingües. Las ontologías son un concepto relativamente nuevo en la informática, y pueden ser utilizadas para representar el dominio sobre el que trata la colección de documentos. En el ámbito del Procesamiento del Lenguaje Natural, las ontologías se están empleando, entre otros usos, para construir representaciones independientes de la lengua que puedan servir de punto de encuentro entre dos o más lenguas naturales.

Si bien alcanzar la Web Semántica es por el momento una utopía, se ha estado trabajando en la recuperación de información bilingüe a pequeña escala, creando para ciertos dominios en particular, la estructura semántica requerida.

FUENTES:

La web semántica. En: [Línea]. http://www.fing.edu.uy/inco/grupos/pln/prygrado/InformeRecBilWS.pdf

Recuperación de información bilingue en la Web semántica

Internet se ha transformado en los últimos anos en un agente protagónico de difusión del conocimiento. Su crecimiento se ha producido de manera desordenada, sin una estructura que la organice, lo que ocasiona que muchas veces la información no pueda ser recuperada satisfactoriamente.

Se ha planteado la idea de transformar la Web actual en una Web Semántica, donde documentos y aplicaciones estén tenidos de significado.

El enfoque realizado en este proyecto fue considerar un dominio de conceptos acotado y buscar un esquema de representación adecuado, como una ontología multilingüe, la que se construyo tomando en consideración trabajos previos. El dominio elegido dio lugar a un gran número de instancias de la ontología, haciendo imprescindible efectuar una carga masiva automática. Para efectuar recuperación de información no basta con construir y poblar la ontología bilingüe, sino que es necesario encontrar una manera de vincular las entidades definidas en la ontología con el conjunto de documentos sobre los que se efectuaran las búsquedas.

Esta actividad recibe el nombre de anotación semántica, y puede ser realizada con distintos grados de automatización. Debido a la gran cantidad de paginas a anotar, en este trabajo se efectuó anotación semántica automática. En la misma, se observo que era necesaria cierta corrección manual posterior sobre las anotaciones, así que una vez finalizado el proceso de anotación se analizo la manera de revisar los metadatos generados y corregirlos.

Finalmente, se construyo una aplicación que permite hacer búsquedas semánticas sobre el dominio de conceptos elegido. Dicha aplicación devuelve documentos en español e ingles relevantes a la consulta, marcando en el texto las entidades identificadas. Cabe acotar que se trata de documentos distintos, no de versiones en español e ingles del mismo documento.

Se hizo una comparación entre los resultados obtenidos por el buscador semántico construido y un buscador por palabra clave común. Considerando los indicadores de Recall y Precisión, los valores alcanzados afianzan la idea de continuar el trabajo en el enfoque adoptado.

Fuente:

Recuperación de información en la web semántica. En: [Linea]. http://www.fing.edu.uy/inco/grupos/pln/prygrado/InformeRecBilWS.pdf

lunes, 18 de octubre de 2010

Extracción de información

La extracción de información surge como una alternativa para facilitar la búsqueda de contenido relevante en una página HTML. Por ejemplo, el contenido relevante de la página web ficticia , es el nombre del país y su código.

El proceso de extracción recibe como entrada el código HTML de una página web y entrega como resultado la información relevante. El resultado esperado de la extracción es: Colombia, 1080; Perú, 2030.

En el proyecto WebAgents se utilizan diferentes tipos de recursos para la extracción: páginas html de diferentes formatos provenientes de los sitios obtenidos en el proceso de recuperación de información, páginas html completamente estructuradas provenientes de la librería Amazon y páginas html semi-estructuradas del sitio Barnes and Noble. Las páginas obtenidas en el proceso de recuperación de información en motores de búsqueda poseen variedad de estructuras, por esto se elige como técnica general para la extracción de información en ellas, el emparejamiento de patrones, técnica que permite encontrar porciones de texto que coincide con ciertas propiedades.

Las páginas completamente estructuradas siguen estrictamente un formato, generalmente es el XML, esto permite que la extracción de información en estas páginas resulte más sencilla, mediante la utilización de plantillas de extracción o templates tree.

Las paginas semiestructuradas a través de la organización lógica de los elementos que las conforman, permiten una fácil identificación del texto que se desea extraer. Para este tipo de páginas se eligieron los Wrappers, funciones expresadas mediante plantillas de extracción, pertenecientes a los modelos basados en reglas sintácticas. La efectividad de estas funciones en conjuntos de páginas estructuradas y semi-estructuradas ha sido demostrada en trabajos que incluyen tareas de extracción.

Para facilitar la construcción y el mantenimiento de las plantillas de extracción, se usa “Wrapper Induction” , una técnica para inducir automáticamente plantillas de extracción. La inducción de un wrapper implica la generalización a partir de un conjunto de páginas ejemplo, cada una con los fragmentos de texto a extraer marcados.

Fuente:

La extracción de información. En: [Linea]. http://www.google.com.co/search?as_q=recuperacion+de+informacion&hl=es&num=10&btnG=Buscar+con+Google&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=doc&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

Recuperación de información

La Recuperación de Información integra las acciones encaminadas a la representación, almacenamiento, organización, y acceso de información. Un Sistema de Recuperación de Información genérico consta de un conjunto de actividades que inician con una necesidad de información planteada por un usuario y según los recursos que se utilicen para la búsqueda se plantea una consulta que arroja resultados que deben ser evaluados y presentados al usuario posteriormente .

Aplicando el proceso genérico de recuperación de información para el caso de estudio seleccionado para este artículo, se plantea una necesidad de información sobre material bibliográfico. La necesidad se basa en conocer más detalles de los materiales como tabla de contenido, descripción y/o comentarios. El recurso seleccionado para satisfacer esta necesidad es internet ya que proporciona acceso a gran cantidad de información.

Para recuperar información en internet es necesario utilizar herramientas de búsqueda, las cuales proporcionan acceso a millones de páginas o bases de datos con diverso tipo de información, esto permite al usuario aumentar la probabilidad de encontrar lo que desea.

Las herramientas de búsqueda utilizadas para satisfacer la necesidad de información sobre material bibliográfico son los agentes de información que se encargan de buscar documentos relevantes en la web para una consulta específica y consultan en la web profunda dentro de los sitios fijos que se proponen en la definición del caso de estudio.

El éxito de los agentes de información para la recuperación de información en la web depende de la cuidadosa selección y del orden en el cual se usan los recursos de información en una búsqueda. Un agente de información debe tener algunos conocimientos sobre la base de datos a accesar, procedimientos para acceder bases de datos, procedimientos de resolución de conflictos, estrategias de combinación de información y protocolos de coordinación con otros agentes de software.

Los agentes de información ofrecen grandes ventajas: la realización de consultas paralelas en varios sitios web; la utilización de una sola interfaz para la presentación de los resultados de una consulta realizada en varios sitios y el aprovechamiento de los avances que han logrado estos sitios. Estos avances consisten en la utilización de todo el ancho de banda de internet para abarcar mayor parte de la web y recuperar documentos lo más rápido posible. Los agentes de información a desarrollar recuperan información de internet en los motores de búsqueda Google, Lycos y Altavista y en las librerías en línea Amazon, Barnes & Noble y Fnac.

miércoles, 13 de octubre de 2010

La evolución de los sistemas de recuperación de información.

Una vez superada la etapa en la que se confundía la recuperación de datos con la recuperación de información y delimitadas claramente las diferencias existentes entre ambos conceptos, comienzan a desarrollarse una serie de modelos lógicos para el diseño de sistemas capaces de gestionar las cada vez más ingentes colecciones de datos.

Todos estos modelos coinciden en un planteamiento inicial, largamente defendido por el investigador británico Thomas Daniel Wilson, los sistemas deben ser eficaces y dinámicos para apoyar la toma de decisiones de los gestores de las organizaciones.

Conscientes del cada vez mayor número de documentos de los que se dispone, los sistemas deben superar la clásica tendencia del modelo relacional de datos de proporcionar toda la información coincidente con una serie de parámetros de búsqueda, abrumando al usuario con una ingente cantidad de documentos. En esta situación, el usuario difícilmente podrá distinguir aquellos que posean mayor relevancia con respecto a su necesidad informativa, ya que el examen del ingente conjunto de documentos devueltos le resultará, en la práctica, un problema mayor que el no disponer de ellos.

Los sistemas de recuperación de información han evolucionado en la línea de presentar al usuario su respuesta ordenada con base en unos criterios de afinidad a su necesidad informativa, expresada ésta en términos de una expresión regular de búsqueda donde se plasman los conceptos que más le interesan.

Este alineamiento de la respuesta se convierte en la piedra angular del adecuado funcionamiento de un sistema de recuperación de información, en tanto que, cuanto mejor sea el rendimiento del algoritmo que cada uno implementa, mejor calidad tendrá esa respuesta.

Otro aspecto donde se ha evolucionado sustancialmente, no menos importante que el anteriormente indicado, es el desarrollo de la interface de usuario y de las posibilidades de los lenguajes de recuperación de información implementados en estos sistemas. De hecho, estos dos aspectos son de los más utilizados por gran parte de la comunidad científica a la hora de desarrollar procedimientos de evaluación de la efectividad de este tipo de sistemas.

Fuentes:

Recuperación de información en internet. Universidad de Murcia : En [Linea] http://uvirtual.lasalle.edu.co/file.php/389/Bibliografia/tesis-javiermartinez.pdf

Los motores de búsqueda como paradigma de la recuperación de información en internet

De la totalidad de los SRI que se han desarrollado en Internet, los motores de búsqueda son los que más se incardinan con la naturaleza dinámica del contexto de la web, siendo unos sistemas de evolución paralela al crecimiento de la web y al aumento del número de usuarios. Constituyen además uno de los desarrollos más consolidados de las técnicas de Indización Automática [SAL, 1983] [GIL, 1999] y, al mismo tiempo, son los sistemas más sensibles a toda la amplia serie de situaciones peculiares que se presentan en la red: “spamming”, inaccesiblidad de páginas, deficientes o inexistentes descripciones de las páginas, volatilidad, etc.

Independientemente de su método de rastreo y de los posteriores criterios y algoritmos empleados para el alineamiento de los documentos, todos los motores de búsqueda parten de una situación inicial parecida: una lista de direcciones que sirve de punto de partida para el robot (o los robots). Esta similitud de condiciones iniciales propicia, ineludiblemente, una posterior comparación del resultado final, es decir, de la porción de web indexada y de la calidad de esta indexación.

Otro factor que contribuye a esta serie de comparaciones es el cierto ocultismo de los métodos seguidos por cada motor en la realización de sus tareas, lo que conlleva, al igual que en el caso anterior, a la necesidad de comparar el resultado obtenido con el fin de poder apreciar cuál de esos sistemas es de uso más recomendable.

Si se asumen que de lo completa, representativa y actualizada que sea la colección de un motor de búsqueda, depende su calidad; en un directorio, en cambio, la misma reside en la capacidad de los gestores en la realización de las descripciones y en el número de estos gestores, ambos motivos más relacionados con capacidades presupuestarias que con prestaciones tecnológicas.

En cambio, los motores representan un claro ejemplo de la aplicación de las técnicas de recuperación de información a la resolución de un reto, tan antiguo como moderno, en el campo de la Información y la Documentación: disponer en un índice las referencias a la mayor parte de los documentos existentes

Fuentes:

Recuperación de información en internet. Universidad de Murcia : En [Linea] http://uvirtual.lasalle.edu.co/file.php/389/Bibliografia/tesis-javiermartinez.pdf