Information Retrieval: 18 oct 2010

lunes, 18 de octubre de 2010

Extracción de información

La extracción de información surge como una alternativa para facilitar la búsqueda de contenido relevante en una página HTML. Por ejemplo, el contenido relevante de la página web ficticia , es el nombre del país y su código.

El proceso de extracción recibe como entrada el código HTML de una página web y entrega como resultado la información relevante. El resultado esperado de la extracción es: Colombia, 1080; Perú, 2030.

En el proyecto WebAgents se utilizan diferentes tipos de recursos para la extracción: páginas html de diferentes formatos provenientes de los sitios obtenidos en el proceso de recuperación de información, páginas html completamente estructuradas provenientes de la librería Amazon y páginas html semi-estructuradas del sitio Barnes and Noble. Las páginas obtenidas en el proceso de recuperación de información en motores de búsqueda poseen variedad de estructuras, por esto se elige como técnica general para la extracción de información en ellas, el emparejamiento de patrones, técnica que permite encontrar porciones de texto que coincide con ciertas propiedades.

Las páginas completamente estructuradas siguen estrictamente un formato, generalmente es el XML, esto permite que la extracción de información en estas páginas resulte más sencilla, mediante la utilización de plantillas de extracción o templates tree.

Las paginas semiestructuradas a través de la organización lógica de los elementos que las conforman, permiten una fácil identificación del texto que se desea extraer. Para este tipo de páginas se eligieron los Wrappers, funciones expresadas mediante plantillas de extracción, pertenecientes a los modelos basados en reglas sintácticas. La efectividad de estas funciones en conjuntos de páginas estructuradas y semi-estructuradas ha sido demostrada en trabajos que incluyen tareas de extracción.

Para facilitar la construcción y el mantenimiento de las plantillas de extracción, se usa “Wrapper Induction” , una técnica para inducir automáticamente plantillas de extracción. La inducción de un wrapper implica la generalización a partir de un conjunto de páginas ejemplo, cada una con los fragmentos de texto a extraer marcados.

Fuente:

La extracción de información. En: [Linea]. http://www.google.com.co/search?as_q=recuperacion+de+informacion&hl=es&num=10&btnG=Buscar+con+Google&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=doc&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

Recuperación de información

La Recuperación de Información integra las acciones encaminadas a la representación, almacenamiento, organización, y acceso de información. Un Sistema de Recuperación de Información genérico consta de un conjunto de actividades que inician con una necesidad de información planteada por un usuario y según los recursos que se utilicen para la búsqueda se plantea una consulta que arroja resultados que deben ser evaluados y presentados al usuario posteriormente .

Aplicando el proceso genérico de recuperación de información para el caso de estudio seleccionado para este artículo, se plantea una necesidad de información sobre material bibliográfico. La necesidad se basa en conocer más detalles de los materiales como tabla de contenido, descripción y/o comentarios. El recurso seleccionado para satisfacer esta necesidad es internet ya que proporciona acceso a gran cantidad de información.

Para recuperar información en internet es necesario utilizar herramientas de búsqueda, las cuales proporcionan acceso a millones de páginas o bases de datos con diverso tipo de información, esto permite al usuario aumentar la probabilidad de encontrar lo que desea.

Las herramientas de búsqueda utilizadas para satisfacer la necesidad de información sobre material bibliográfico son los agentes de información que se encargan de buscar documentos relevantes en la web para una consulta específica y consultan en la web profunda dentro de los sitios fijos que se proponen en la definición del caso de estudio.

El éxito de los agentes de información para la recuperación de información en la web depende de la cuidadosa selección y del orden en el cual se usan los recursos de información en una búsqueda. Un agente de información debe tener algunos conocimientos sobre la base de datos a accesar, procedimientos para acceder bases de datos, procedimientos de resolución de conflictos, estrategias de combinación de información y protocolos de coordinación con otros agentes de software.

Los agentes de información ofrecen grandes ventajas: la realización de consultas paralelas en varios sitios web; la utilización de una sola interfaz para la presentación de los resultados de una consulta realizada en varios sitios y el aprovechamiento de los avances que han logrado estos sitios. Estos avances consisten en la utilización de todo el ancho de banda de internet para abarcar mayor parte de la web y recuperar documentos lo más rápido posible. Los agentes de información a desarrollar recuperan información de internet en los motores de búsqueda Google, Lycos y Altavista y en las librerías en línea Amazon, Barnes & Noble y Fnac.