Information Retrieval: Extracción de información

lunes, 18 de octubre de 2010

Extracción de información

La extracción de información surge como una alternativa para facilitar la búsqueda de contenido relevante en una página HTML. Por ejemplo, el contenido relevante de la página web ficticia , es el nombre del país y su código.

El proceso de extracción recibe como entrada el código HTML de una página web y entrega como resultado la información relevante. El resultado esperado de la extracción es: Colombia, 1080; Perú, 2030.

En el proyecto WebAgents se utilizan diferentes tipos de recursos para la extracción: páginas html de diferentes formatos provenientes de los sitios obtenidos en el proceso de recuperación de información, páginas html completamente estructuradas provenientes de la librería Amazon y páginas html semi-estructuradas del sitio Barnes and Noble. Las páginas obtenidas en el proceso de recuperación de información en motores de búsqueda poseen variedad de estructuras, por esto se elige como técnica general para la extracción de información en ellas, el emparejamiento de patrones, técnica que permite encontrar porciones de texto que coincide con ciertas propiedades.

Las páginas completamente estructuradas siguen estrictamente un formato, generalmente es el XML, esto permite que la extracción de información en estas páginas resulte más sencilla, mediante la utilización de plantillas de extracción o templates tree.

Las paginas semiestructuradas a través de la organización lógica de los elementos que las conforman, permiten una fácil identificación del texto que se desea extraer. Para este tipo de páginas se eligieron los Wrappers, funciones expresadas mediante plantillas de extracción, pertenecientes a los modelos basados en reglas sintácticas. La efectividad de estas funciones en conjuntos de páginas estructuradas y semi-estructuradas ha sido demostrada en trabajos que incluyen tareas de extracción.

Para facilitar la construcción y el mantenimiento de las plantillas de extracción, se usa “Wrapper Induction” , una técnica para inducir automáticamente plantillas de extracción. La inducción de un wrapper implica la generalización a partir de un conjunto de páginas ejemplo, cada una con los fragmentos de texto a extraer marcados.

Fuente:

La extracción de información. En: [Linea]. http://www.google.com.co/search?as_q=recuperacion+de+informacion&hl=es&num=10&btnG=Buscar+con+Google&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=doc&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

Information Retrieval

lunes, 18 de octubre de 2010

Extracción de información

No hay comentarios:

Publicar un comentario