lunes, 18 de octubre de 2010

Extracción de información

La extracción de información surge como una alternativa para facilitar la búsqueda de contenido relevante en una página HTML. Por ejemplo, el contenido relevante de la página web ficticia , es el nombre del país y su código. 

El proceso de extracción recibe como entrada el código HTML de una página web y entrega como resultado la información relevante. El resultado esperado de la extracción es: Colombia, 1080; Perú, 2030.
  
En el proyecto  WebAgents se utilizan diferentes tipos de  recursos  para la extracción: páginas html de diferentes formatos  provenientes de los  sitios obtenidos en el proceso de recuperación de información, páginas html completamente estructuradas provenientes de la librería Amazon y páginas html semi-estructuradas del sitio Barnes and Noble. Las páginas obtenidas en el proceso de recuperación de información  en motores de búsqueda poseen variedad de estructuras, por esto  se elige como técnica general  para   la extracción de información en ellas, el emparejamiento de patrones,  técnica que permite encontrar  porciones de texto que coincide con ciertas propiedades.

Las páginas  completamente estructuradas siguen estrictamente un formato,  generalmente es el XML, esto permite que la extracción de información en estas páginas resulte más sencilla, mediante la utilización de plantillas de extracción o templates tree.

Las paginas semiestructuradas a través de la organización lógica de los elementos  que las conforman,  permiten  una fácil identificación del texto que se desea extraer.   Para este tipo de páginas  se eligieron  los Wrappers, funciones expresadas mediante plantillas de extracción, pertenecientes a los modelos  basados en reglas sintácticas.  La efectividad de estas funciones  en conjuntos de páginas estructuradas y semi-estructuradas ha sido demostrada en  trabajos  que incluyen tareas de extracción.

Para facilitar la construcción y el mantenimiento de las plantillas de extracción, se usa “Wrapper Induction” , una técnica para inducir automáticamente  plantillas de extracción.  La inducción de un wrapper implica la generalización a partir de un conjunto de páginas ejemplo, cada una con los  fragmentos de texto a extraer marcados.


Fuente:

La extracción de información.  En:  [Linea]. http://www.google.com.co/search?as_q=recuperacion+de+informacion&hl=es&num=10&btnG=Buscar+con+Google&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=doc&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

No hay comentarios:

Publicar un comentario