lunes, 25 de octubre de 2010

Web semántica

Internet ha registrado un crecimiento muy importante en los últimos años, tanto en el volumen de documentos como en la diversidad de idiomas y formatos, teniendo como consecuencia, entre otras, la dificultad para encontrar la información que se Busca.


La Web actual es un repositorio enorme de documentos, el cual podría ser mucho mejor explotado si contara con una estructura que lo organice. Hay una tendencia corriente a transformar la Web actual en una Web Semántica, donde documentos y aplicaciones estén tenidos de significado. Esto es una tarea de dimensiones mayúsculas, que involucra desde llegar a consensos respecto a la semántica de los distintos objetos existentes, hasta la creación de la meta data que relacione la enorme cantidad de documentos publicados en Internet con los conceptos definidos Las aplicaciones multilingües son aquellas con habilidades para procesar documentos en mas de un idioma. Ante una consulta de un término en un idioma, devuelven los documentos que lo contienen, con independencia del idioma en que se encuentra el documento y del idioma del término de la consulta.

Un enfoque para la construcción de estas aplicaciones, es la creación de corpus paralelos de los documentos en los que se va a realizar la búsqueda, esto es, cada documento esta traducido a los otros idiomas de interés. Ante una consulta en un idioma, la aplicación puede devolver documentos en más de un idioma, aunque se trata de los mismos documentos traducidos.

Otro enfoque a considerar es la utilización de ontologías multilingües. Las ontologías son un concepto relativamente nuevo en la informática, y pueden ser utilizadas para representar el dominio sobre el que trata la colección de documentos. En el ámbito del Procesamiento del Lenguaje Natural, las ontologías se están empleando, entre otros usos, para construir representaciones independientes de la lengua que puedan servir de punto de encuentro entre dos o más lenguas naturales.

Si bien alcanzar la Web Semántica es por el momento una utopía, se ha estado trabajando en la recuperación de información bilingüe a pequeña escala, creando para ciertos dominios en particular, la estructura semántica requerida.




FUENTES:

La web semántica. En: [Línea]. http://www.fing.edu.uy/inco/grupos/pln/prygrado/InformeRecBilWS.pdf









Recuperación de información bilingue en la Web semántica

Internet se ha transformado en los últimos anos en un agente protagónico de difusión del conocimiento. Su crecimiento se ha producido de manera desordenada, sin una estructura que la organice, lo que ocasiona que muchas veces la información no pueda ser recuperada satisfactoriamente.

Se ha planteado la idea de transformar la Web actual en una Web Semántica, donde documentos y aplicaciones estén tenidos de significado.

El enfoque realizado en este proyecto fue considerar un dominio de conceptos acotado y buscar un esquema de representación adecuado, como una ontología multilingüe, la que se construyo tomando en consideración trabajos previos. El dominio elegido dio lugar a un gran número de instancias de la ontología, haciendo imprescindible efectuar una carga masiva automática. Para efectuar recuperación de información no basta con construir y poblar la ontología bilingüe, sino que es necesario encontrar una manera de vincular las entidades definidas en la ontología con el conjunto de documentos sobre los que se efectuaran las búsquedas.

Esta actividad recibe el nombre de anotación semántica, y puede ser realizada con distintos grados de automatización. Debido a la gran cantidad de paginas a anotar, en este trabajo se efectuó anotación semántica automática. En la misma, se observo que era necesaria cierta corrección manual posterior sobre las anotaciones, así que una vez finalizado el proceso de anotación se analizo la manera de revisar los metadatos generados y corregirlos.

Finalmente, se construyo una aplicación que permite hacer búsquedas semánticas sobre el dominio de conceptos elegido. Dicha aplicación devuelve documentos en español e ingles relevantes a la consulta, marcando en el texto las entidades identificadas. Cabe acotar que se trata de documentos distintos, no de versiones en español e ingles del mismo documento.

Se hizo una comparación entre los resultados obtenidos por el buscador semántico construido y un buscador por palabra clave común. Considerando los indicadores de Recall y Precisión, los valores alcanzados afianzan la idea de continuar el trabajo en el enfoque adoptado.




Fuente:
Recuperación de información en la web semántica. En: [Linea]. http://www.fing.edu.uy/inco/grupos/pln/prygrado/InformeRecBilWS.pdf 

lunes, 18 de octubre de 2010

Extracción de información

La extracción de información surge como una alternativa para facilitar la búsqueda de contenido relevante en una página HTML. Por ejemplo, el contenido relevante de la página web ficticia , es el nombre del país y su código. 

El proceso de extracción recibe como entrada el código HTML de una página web y entrega como resultado la información relevante. El resultado esperado de la extracción es: Colombia, 1080; Perú, 2030.
  
En el proyecto  WebAgents se utilizan diferentes tipos de  recursos  para la extracción: páginas html de diferentes formatos  provenientes de los  sitios obtenidos en el proceso de recuperación de información, páginas html completamente estructuradas provenientes de la librería Amazon y páginas html semi-estructuradas del sitio Barnes and Noble. Las páginas obtenidas en el proceso de recuperación de información  en motores de búsqueda poseen variedad de estructuras, por esto  se elige como técnica general  para   la extracción de información en ellas, el emparejamiento de patrones,  técnica que permite encontrar  porciones de texto que coincide con ciertas propiedades.

Las páginas  completamente estructuradas siguen estrictamente un formato,  generalmente es el XML, esto permite que la extracción de información en estas páginas resulte más sencilla, mediante la utilización de plantillas de extracción o templates tree.

Las paginas semiestructuradas a través de la organización lógica de los elementos  que las conforman,  permiten  una fácil identificación del texto que se desea extraer.   Para este tipo de páginas  se eligieron  los Wrappers, funciones expresadas mediante plantillas de extracción, pertenecientes a los modelos  basados en reglas sintácticas.  La efectividad de estas funciones  en conjuntos de páginas estructuradas y semi-estructuradas ha sido demostrada en  trabajos  que incluyen tareas de extracción.

Para facilitar la construcción y el mantenimiento de las plantillas de extracción, se usa “Wrapper Induction” , una técnica para inducir automáticamente  plantillas de extracción.  La inducción de un wrapper implica la generalización a partir de un conjunto de páginas ejemplo, cada una con los  fragmentos de texto a extraer marcados.


Fuente:

La extracción de información.  En:  [Linea]. http://www.google.com.co/search?as_q=recuperacion+de+informacion&hl=es&num=10&btnG=Buscar+con+Google&as_epq=&as_oq=&as_eq=&lr=&cr=&as_ft=i&as_filetype=doc&as_qdr=all&as_occt=any&as_dt=i&as_sitesearch=&as_rights=&safe=images

Recuperación de información

La Recuperación de Información integra las acciones encaminadas a la representación, almacenamiento, organización, y acceso de información.  Un Sistema de Recuperación de Información genérico consta de un conjunto de actividades que inician con una necesidad de información planteada por un usuario y según los recursos que se utilicen para la búsqueda se plantea una consulta que arroja resultados que deben ser evaluados y presentados al usuario posteriormente .

Aplicando el proceso genérico de recuperación de información para el caso de  estudio seleccionado para este artículo, se plantea una necesidad de información sobre material bibliográfico. La necesidad se basa en conocer más detalles de los materiales como tabla de contenido, descripción y/o comentarios. El recurso seleccionado para satisfacer esta necesidad es internet ya que proporciona acceso a gran cantidad de información.

Para recuperar información en internet es necesario utilizar herramientas de búsqueda, las cuales proporcionan acceso a millones de páginas o bases de datos  con diverso tipo de información, esto  permite al usuario aumentar la probabilidad de encontrar lo que desea.

Las herramientas de búsqueda utilizadas para satisfacer la necesidad de información sobre material bibliográfico son los agentes de información que se encargan de buscar documentos relevantes en la web para una consulta específica y consultan en la web profunda dentro de los sitios fijos que se proponen en la definición del caso de estudio.

El éxito de los agentes de información para la recuperación de información en la web depende de la cuidadosa selección y del orden en el cual se usan  los recursos de información en una  búsqueda. Un agente de información debe tener algunos conocimientos sobre la base de datos a accesar, procedimientos para acceder bases de datos, procedimientos de resolución de conflictos, estrategias de combinación de información y protocolos de coordinación con otros agentes de software.


Los agentes de información ofrecen grandes ventajas: la realización de consultas paralelas en varios sitios web; la utilización de una sola interfaz para la presentación de los resultados de una consulta realizada en varios sitios  y el aprovechamiento de  los avances que han logrado estos sitios. Estos avances consisten en la utilización de todo el ancho de banda de internet para abarcar mayor parte de la web y  recuperar documentos lo más rápido posible.  Los agentes de información a desarrollar recuperan información de internet en los motores de búsqueda Google, Lycos y Altavista y en las librerías en línea Amazon, Barnes & Noble y Fnac.

miércoles, 13 de octubre de 2010

La evolución de los sistemas de recuperación de información.


Una vez superada la etapa en la que se confundía la recuperación de datos con la recuperación de información y delimitadas claramente las diferencias existentes entre ambos conceptos, comienzan a desarrollarse una serie de modelos lógicos para el diseño de sistemas capaces de gestionar las cada vez más ingentes colecciones de datos.




Todos estos modelos coinciden en un planteamiento inicial, largamente defendido por el investigador británico Thomas Daniel Wilson, los sistemas deben ser eficaces y dinámicos para apoyar la toma de decisiones de los gestores de las organizaciones.

Conscientes del cada vez mayor número de documentos de los que se dispone, los sistemas deben superar la clásica tendencia del modelo relacional de datos de proporcionar toda la información coincidente con una serie de parámetros de búsqueda, abrumando al usuario con una ingente cantidad de documentos. En esta situación, el usuario difícilmente podrá distinguir aquellos que posean mayor relevancia con respecto a su necesidad informativa, ya que el examen del ingente conjunto de documentos devueltos le resultará, en la práctica, un problema mayor que el no disponer de ellos.

Los sistemas de recuperación de información han evolucionado en la línea de presentar al usuario su respuesta ordenada con base en unos criterios de afinidad a su necesidad informativa, expresada ésta en términos de una expresión regular de búsqueda donde se plasman los conceptos que más le interesan.

Este alineamiento de la respuesta se convierte en la piedra angular del adecuado funcionamiento de un sistema de recuperación de información, en tanto que, cuanto mejor sea el rendimiento del algoritmo que cada uno implementa, mejor calidad tendrá esa respuesta.

Otro aspecto donde se ha evolucionado sustancialmente, no menos importante que el anteriormente indicado, es el desarrollo de la interface de usuario y de las posibilidades de los lenguajes de recuperación de información implementados en estos sistemas. De hecho, estos dos aspectos son de los más utilizados por gran parte de la comunidad científica a la hora de desarrollar procedimientos de evaluación de la efectividad de este tipo de sistemas.


Fuentes:

Recuperación de información en internet. Universidad de Murcia : En [Linea] http://uvirtual.lasalle.edu.co/file.php/389/Bibliografia/tesis-javiermartinez.pdf


Los motores de búsqueda como paradigma de la recuperación de información en internet

De la totalidad de los SRI que se han desarrollado en Internet, los motores de búsqueda son los que más se incardinan con la naturaleza dinámica del contexto de la web, siendo unos sistemas de evolución paralela al crecimiento de la web y al aumento del número de usuarios. Constituyen además uno de los desarrollos más consolidados de las técnicas de Indización Automática [SAL, 1983] [GIL, 1999] y, al mismo tiempo, son los sistemas más sensibles a toda la amplia serie de situaciones peculiares que se presentan en la red: “spamming”, inaccesiblidad de páginas, deficientes o inexistentes descripciones de las páginas, volatilidad, etc.

Independientemente de su método de rastreo y de los posteriores criterios y algoritmos empleados para el alineamiento de los documentos, todos los motores de búsqueda parten de una situación inicial parecida: una lista de direcciones que sirve de punto de partida para el robot (o los robots). Esta similitud de condiciones iniciales propicia, ineludiblemente, una posterior comparación del resultado final, es decir, de la porción de web indexada y de la calidad de esta indexación.

 Otro factor que contribuye a esta serie de comparaciones es el cierto ocultismo de los métodos seguidos por cada motor en la realización de sus tareas, lo que  conlleva, al igual que en el caso anterior, a la necesidad de comparar el resultado obtenido con el fin de poder apreciar cuál de esos sistemas es de uso más recomendable.

Si se asumen que de lo completa, representativa y actualizada que sea la colección de un motor de búsqueda, depende su calidad; en un directorio, en cambio, la misma reside en la capacidad de los gestores en la realización de las descripciones y en el número de estos gestores, ambos motivos más relacionados con capacidades presupuestarias que con prestaciones tecnológicas.

En cambio, los motores representan un claro ejemplo de la aplicación de las técnicas de recuperación de información a la resolución de un reto, tan antiguo como moderno, en el campo de la Información y la Documentación: disponer en un índice las referencias a la mayor parte de los documentos existentes

Fuentes:

Recuperación de información en internet. Universidad de Murcia : En [Linea] http://uvirtual.lasalle.edu.co/file.php/389/Bibliografia/tesis-javiermartinez.pdf

martes, 12 de octubre de 2010

Metadatos y HTML

El lenguaje de marcado de hipertextos HTML (HyperText Markup Language) es una herramienta sencilla para especificar la estructura de los documentos en la red, a partir de un conjunto de etiquetas que sirven para definir la forma de presentar el texto y otros elementos de las páginas. La definición de tipo de documento HTML, con su estructura elemental, se orienta principalmente a describir los elementos estructurales (cabecera y cuerpo del documento) que aparecen en el hipertexto.

El HTML, por tanto, se comporta de forma superficial en la representación de la información e indica solo a los navegadores cómo deben representar la información en lugar del significado de la información.7 Para describir la información con el objetivo de recuperarla posteriormente, el HTML posibilita a los autores de las páginas Web especificar metadatos o información sobre los documentos.

En HTML, los elementos META o metatag se utilizan para que el propio autor pueda especificar información sobre el documento y se insertan en la cabecera del documento. Las etiquetas <META> son de aquellas que se llaman "elementos vacíos", porque no llevan etiqueta de cierre. Su estructura es la de una declaración propiedad: valor (de una propiedad y de un valor para esta propiedad) que puede realizarse de dos formas diferentes:
  • Desde dentro de un documento, por medio del elemento META.
  • Desde fuera de un documento, vinculando los metadatos por medio del elemento LINK.
Aunque la forma común de insertar metadatos en un documento HTML es por medio de la etiqueta <META> no existe ninguna regla sobre la información que se puede o no incluir en los metatags. El standard HTML define la estructura de una etiqueta META, pero no sus valores.

Por ejemplo:

<meta name="Author" content="Isabel Daudinot Founier" lang="es">
Esta declaración dice que el autor del documento es Isabel Daudinot Founier, e indica que el valor del atributo content está en español.
A continuación se describirán, con ejemplos, las etiquetas META de HTML más comunes: (Metadatos en html):
  1. Description:
<meta name=”description” content=”Servicio de páginas amarilla que ofrece información sobre la localización de instituciones cubanas o extranjeras radicadas en territorio nacional, así como de los servicios que brindan”. Mediante esta etiqueta puede incluirse como metadato una descripción de la página o documento. Esta descripción puede leerse y utilizarse por algunos buscadores. La etiqueta <meta> admite el atributo lang , que permite ofrecer información sobre el idioma.
  1. Keywords:
<meta name=”keywords” content=”Páginas amarillas, Cuba, Empresas cubanas, Negocios, Instituciones cubanas, Información de Cuba”. Las palabras clave son aquellas que resumen de forma significativa el contenido de la página.

Estas dos etiquetas META (description y keywords) son las más importantes. Algunos buscadores leen estas etiquetas y juzgan sobre la importancia de la página, según ellas. Una buena descripción y un grupo de palabras clave correctamente asignadas, puede ayudar mucho a aumentar la visibilidad de una página Web.
  1. HTTP-EQUIV:
Las páginas Web se distribuyen por Internet mediante el protocolo http, que regula el diálogo entre el servidor y el navegador. Con estas etiquetas, el autor de la página puede predeterminar aspectos de este diálogo.
 Su sintaxis general es:
<meta http-equiv=”content-type” content=”text/html; charset=ISO-8859-1”/>

Con esta etiqueta META, se indica al navegador el tipo de documento: si es un documento html o un documento de texto plano o cualquier otra cosa que se desee indicar. En el ejemplo anterior, significaría que es un documento texto-html y que usa un juego de caracteres ISO-8859-1. esta información es útil para que el navegador de los visitantes conozca qué juego de caracteres debe emplear.
  1. Refresh:
<meta http-equiv=”refresh” content=”5”/>
<meta http-equiv=”refresh” content=”5; url=http://www.cuba.cu/mapa.php/”>

Mediante esta etiqueta y el valor refresh se indica al navegador que debe recargar la página una vez transcurrido el tiempo especificado. En la primera línea, un refresh simple, con orden de recarga a los cinco segundos. En la segunda línea, un refresh con redirección. El navegador debe refrescar la página a los cinco segundos, recargando en su lugar la especificada.
  1. Expires:
<META HTTP-EQUIV=”expires” CONTENT= “Tue, 15 Dec 2002 21:29:02 GMT”>
Mediante la orden expires, se informa sobre la vigencia del documento. Su utilidad principal es la de evitar que el navegador guarde indefinidamente en caché una página y forzarlo a cargar las nuevas versiones. La fecha debe presentarse necesariamente en formato RFC840 (GMT), es decir:
día_de_semana, DD-Mon-YY HH:MM:SS TIMEZONE(Greenwich) todo eso en inglés.

 Por ejemplo Fri, 01 Jan 2003 07:20:55 GMT

Si la fecha está expresada en un formato distinto, el valor de expires se interpretará como now, es decir, se fija una caducidad inmediata.
  1. Pragma:
<meta http-equiv=”pragma” CONTENT=”no-cache”/>
Ordena al navegador que no almacene una copia cache de la página. Resulta útil cuando se trata de páginas dinámicas cuyo contenido cambia frecuentemente. Su único valor aceptable es no-cache.
  1. Set-cookie:
< META HTTP-EQUIV=”Set-Cookie” CONTENT=”nombre_cookie;expires=fecha_valor;path=/” />
Mediante este metatag, puede enviarse un cookie al navegador del usuario. Si contiene fecha de vencimiento, el navegador la conservará en el disco duro hasta dicha fecha; en caso contrario, se borrará al terminar la sesión de navegación.
  1. Window-target:
Sirve para especificar el nombre de la frame donde la página debe cargarse. Por ejemplo:
<META HTTP-EQUIV=”window-target” CONTENT=”-top”>
Estas son las más corrientes de entre las dirigidas a tratar con los servidores. Las menos utilizadas son:
<META HTTP-EQUIV=”content-Script-Type” CONTENT=”text/javascript”>
<META HTTP-EQUIV=”content-Style-Type” CONTENT=”text/css”>
Ellas informan respectivamente el tipo de lenguaje script utilizado y el uso de CSS
  1. Robots:
Se pueden ofrecer instrucciones a los robots de los buscadores acerca de qué páginas debe incluir en sus bases de datos y cuáles no. Sus valores son index, que indica la página que debe procesarse; noindex es justo lo contrario; follow indica al robot que siga los links que existan en la página y procese las páginas resultantes; nofollow lo contrario. Los valores por defecto se entiende que son index, follow (separados por coma).

<META NAME=”robot” CONTENT=”index,follow”>

Estas son las etiquetas META de mayor uso que contempla el HTML y que no están sujetas a ningún formato en particular. El autor de un recurso puede utilizarlas con los propósitos anteriormente descritos. Con el objetivo de dar mayor flexibilidad y precisión a la descripción de los documentos, pueden utilizarse en HTML, formatos normalizados de metadatos como el Dublin Core, TEI, entre otros. Estos formatos de metadatos se incrustarían igualmente en la cabecera del documento.

Aún cuando estas etiquetas META sirven para describir la información de los documentos en HTML, éstas no garantizan la flexibilidad y la semántica necesaria, el HTML tiene un conjunto de etiquetas prefijadas y finitas que resultan insuficientes, en muchos casos, para una descripción cabal de determinados recursos de Información.

La superficialidad e inflexibilidad del lenguaje HTML para la representación de la información obliga a la utilización de otro lenguaje más flexible que asegure una mayor consistencia en el procesamiento de la información en Internet y que conduzca hacia una Web más semántica, que asegure la interoperabilidad que la red necesita. Este nuevo lenguaje es, sin lugar a dudas, el XML, que representa una arquitectura de la información más abierta y flexible. Para la representación de la información en el nuevo escenario de XML, se utilizará el RDF (Resourse Description Framework) cuyas posibilidades para estructurar, intercambiar y recuperar información son infinitas.

lunes, 11 de octubre de 2010

Recursos digitales y recuperación de información

El desarrollo precipitado de las tecnologías de la información y las comunicaciones ha generado cambios revolucionarios en casi todas las esferas del quehacer humano. La bibliotecología y todas las ramas relacionadas con el manejo y uso de la información, por supuesto, no escaparon a esta realidad. En los últimos años, las bibliotecas experimentan una necesaria etapa de transformación y adaptación a las nuevas formas de procesamiento y manejo en sentido general de la información.

Durante siglos, las bibliotecas conformaron sus fondos a partir de la colección de objetos físicos, que debían adquirirse de alguna manera, y sobre los que la institución ejercía luego derechos de propiedad. Las colecciones eran entonces un conjunto de objetos físicos portadores de información, albergados en una localización física precisa, y patrimonio exclusivo de una institución. Los bibliotecarios desarrollaron, a lo largo del tiempo, criterios y políticas para la selección y procesamiento de aquellos materiales que se correspondían con los objetivos de su institución.

Internet produjo un cambio total de paradigma en relación con la selección, procesamiento y recuperación de la información. Muchas bibliotecas han dejado de ser una institución social cuya función principal era la conservación o preservación de los documentos almacenados en sus fondos, y no se trata solo del hecho de que en Internet los recursos son digitales, se trata también de que muchos son de acceso gratuito, y eso elimina uno de los aspectos que influía de manera significativa en el desarrollo de las colecciones de las bibliotecas tradicionales: la disponibilidad de recursos para la adquisición. En Internet, los recursos de información están al alcance de todos, siempre y cuando seamos capaces de desarrollar mecanismos que permitan su localización; el problema radica en cómo organizar la información en Internet para garantizar su localización y recuperación exitosa.

La facilidad para crear y publicar recursos de información que han permitido las nuevas tecnologías ha generado un crecimiento sin precedente en la cantidad y variedad de recursos de información disponibles en la red; esto, unido al hecho de que las redes de comunicación han permitido que los contenidos informativos puedan transmitirse en formato digital sin límites geográficos para el acceso, produce un cambio total en el quehacer de la bibliotecas y los profesionales de la información.

Algunos han llegado a vaticinar la desaparición de las funciones de las bibliotecas y de sus profesionales, pero como expresa Bermello Crespo, las bibliotecas han utilizado eficientemente los desarrollos tecnológicos de su época para elevar la calidad de sus servicios. El trabajo de los profesionales de la información ha estado marcado por los mecanismos y dispositivos disponibles para garantizar sus funciones bibliotecarias, pero nunca la tecnología ha determinado los objetivos que persigue la actividad bibliotecaria.

Las bibliotecas sobrevivirán y seguirán con sus nombres y funciones tradicionales: seleccionar, organizar, conservar y proporcionar acceso a los registros del conocimiento humano en todas las formas, los bibliotecarios deben introducir los cambios tecnológicos que acepte la comunidad a la que sirven y a las que necesariamente hay que educar y dirigir por nuevos rumbos, pero esto tiene que hacerse de manera razonable, tanto en su realidad como en la percepción de las cosas. Las bibliotecas sirven a la enseñanza y a la investigación, en la medida en que estas funciones cambien, las bibliotecas cambiarán también.

Uno de los mayores retos a los que se enfrentan los bibliotecarios actualmente es el procesamiento de la información en la red. Para asumir este reto, es necesario que conozcan las características o particularidades de este tipo de información en formato digital.

Heery y Burnett agrupan las características o particularidades de la información en formato digital en los siguientes aspectos:4,5
  • Organización: En los recursos digitales, la organización no es centralizada al estilo de un catálogo de biblioteca ni se organizan en tablas por atributos al estilo de los sistemas más conocidos en gestión de datos informáticos; tampoco se seleccionan ni se coleccionan. Mientras los recursos bibliotecarios se seleccionan y adquieren, los archivos de datos se solicitan y adquieren.
  • Ubicación: Poseen localización remota, frecuentemente de ninguna manera asociada a la institución, como es el caso de un registro de catálogo. Deben considerarse detalles como el modo de acceso disponible; por ejemplo, FTP, HTTP y restricciones a este, como contraseñas. Un mismo recurso puede residir en varios sitios diferentes.
  • Versiones: El mismo recurso puede existir en diferentes formatos, por ejemplo, Postscript, ASCII, etcétera.
  • Inestabilidad: Los datos tienen, a menudo, vida corta en Internet. Los archivos sufren traslados constantes entre distintos servidores y la dirección electrónica (URL) original deviene obsoleta. Los creadores cambian y desarrollan documentos en una URL existente, de forma que muchos recursos en Internet se encuentran bajo elaboración. Son móviles e inestables comparados con los recursos de naturaleza fija, estables, propios de la biblioteca e inseguros, a diferencia de los archivos de datos.
  • Redundancia: Las versiones viejas de documentos no se eliminan, o la información deviene obsoleta. Algunos recursos contienen datos de mantenimiento y revisión que brindan al lector información sobre su actualización.
  • Complejidad: Un sitio en Internet ¿es un documento o pueden ser varios? La existencia de interrelación entre páginas Web es otro signo a considerar en este punto. Una de las características de Internet es la información hipertextual. Los documentos se relacionan estrechamente mediante enlaces y muchas veces es difìcil determinar los límites de un documento o de un sitio.
Los procedimientos y herramientas que tradicionalmente han utilizado las bibliotecas para el procesamiento de sus colecciones en formato impreso, hoy no son adecuados para el tratamiento de los recursos de información en formato digital en Internet. Es preciso considerar que las dimensiones del conjunto de recursos de información en Internet son tan grandes, que impide a cualquier biblioteca abarcarlo todo y menos aún poder realizar su tratamiento documental.

Diariamente, en Internet aparecen miles de sitios, otros desaparecen, se mudan de dirección o modifican su contenido, para cualquier biblioteca tratar de controlar este fenómeno seria un reto inalcanzable. Las bibliotecas en Internet tienen necesariamente que seleccionar los recursos de información para sus usuarios en dependencia de sus necesidades en este sentido, tarea que no es fácil, por el caos que reina en la red.

Todas las organizaciones involucradas en la generación, recuperación y uso de los documentos digitales reconocen la necesidad de establecer normas que permitan estructurar su contenido y contribuyan a facilitar el proceso de búsqueda y recuperación de información. Esto, por supuesto, justifica la necesidad de que la información alojada en Internet disponga de alguna manera de un tipo de procesamiento documental que garantice su localización y recuperación exitosa; de lo contrario, se corre el riesgo de no poder acceder a mucha información valiosa y lo que es peor, desconocer totalmente su existencia.

Cuando se habla de procesamiento documental en Internet, se habla de metadatos, que surgen como respuesta a la necesidad de contar con una estructura adecuada para la descripción normalizada de documentos digitales a fin de posibilitar la localización y recuperación selectiva de la información en la red.


Fuentes:





Metadatos y vocabularios controlados.

La recuperación de información es parte de un complejo sistema de comunicación entre los autores de la información registrada en los documentos y los usuarios que la solicitan. Por tanto, la función principal de los trabajadores de la información es planificar, diseñar, crear, desarrollar y mantener buenos canales o puentes para esta comunicación.

En cualquier sistema documental, cuando los documentos ingresan es necesario realizar una labor de análisis del contenido del documento en cuestión y una traducción al lenguaje de indización empleado. De la misma manera, cuando se efectúa una consulta hay que realizar también estas dos operaciones para traducir la petición de información del usuario en una consulta en los términos del lenguaje de indización.

En la cadena documental, el análisis documental consiste del resumen en texto libre y la indización en lenguaje controlado de los documentos.

Como alternativa al lenguaje documental, puede recurrirse al lenguaje empleado en el propio documento para realizar dicha representación; en este caso, se hablará de indización y recuperación en lenguaje libre.

Algunos autores, entre los cuales se encuentra Angós Ullate, plantean que, a la hora de elaborar las descripciones de los recursos de información, es muy importante el uso de lenguajes normalizados y de índices para facilitar la recuperación de información.

Sin embargo, desde que la World Wide Web se ha generalizado como medio de difusión y publicación de información, los índices se elaboran, por lo general, con términos extraídos del lenguaje natural, y se echa en falta la descripción bibliográfica de los documentos.

La falta de normalización en la creación de los índices y la descripción de los documentos tiene consecuencias negativas, imposibilitan la búsqueda de información pertinente y hacen que el proceso de recuperación de la información sea deficiente.

Por esta razón, la etapa de análisis documental se ha convertido nuevamente en la clave de este proceso: el uso de tesauros, encabezamientos de materias u otro tipo de vocabularios controlados para la descripción de los diferentes elementos de un documento en las etiquetas META, son aún muy importantes en la descripción de los documentos en Internet, y se debe seguir realizando.

Méndez, por su parte, opina que los tesauros en el contexto de la información distribuida de la intranet, estructurada por metadatos, proporcionarán un soporte a la recuperación de información basado en el conocimiento y facilitará la combinación de múltiples bases de datos o la unificación del acceso a diversos contenidos. Los tesauros en estos sistemas de información serán, entonces, algo más que una mera herramienta para la indización: son el soporte semántico de la metainformación.

En esta misma línea, Blain afirma que el más importante aspecto [...] concierne a cómo están representados los documentos en un sistema. La computadora más rápida o las más sofisticadas técnicas de búsquedas no pueden superar los problemas derivados de una pobre representación [de naturaleza lingüística] de los documentos.

Mientras, Gill Urdiciain plantea que el lenguaje libre ofrece la posibilidad de recuperar información muy especializada y actualizada, cuya terminología o no está incluida en el vocabulario controlado, o no está representada de forma suficientemente específica. El lenguaje libre neutraliza las deficiencias del lenguaje controlado y viceversa, y por esto ambos sistemas no solamente no son antagonistas sino que se complementan el uno al otro.

En ocasiones, los especialistas en información se enfrentan al problema de que no existen entre los términos finitos de un lenguaje controlado (tesauro) determinado, algunos de los descriptores necesarios para indizar un documento. En estos casos, es muy socorrido recurrir al lenguaje natural y más aún en el contexto de Internet, donde un mismo sitio puede tener información de diferentes disciplinas.

En los sitios de carácter general, deben emplearse tesauros también de carácter general; por eso, puede ser muy común no encontrar los términos adecuados para la descripción de la información concerniente a cada página Web. Recurrir, en estos casos, al lenguaje natural y combinarlo con el lenguaje controlado es una solución. Ahora bien, no debe perderse de vista que siempre que sea posible la utilización de un lenguaje controlado se estructurará mejor la información y, por tanto, su recuperación será mas efectiva.

Sin embargo, no se debe perder de vista que el uso del lenguaje natural o libre conduce a la ambigüedad y ella incrementa significativamente la cantidad de recursos de información que se recupera, pero reduce la precisión o relevancia de la información recuperada. Por esta razón, siempre que sea posible es muy importante la utilización de un vocabulario o lenguaje controlado para ofrecer una mayor consistencia a las palabras utilizadas y a la indización en sentido general, y eliminar los problemas de polisemia y sinonimia que tanto afectan la recuperación de la información.



FUENTE:

Teoria de los metadatos : La recuperación de información. En : http://bvs.sld.cu/revistas/aci/vol14_5_06/