lunes, 11 de octubre de 2010

Metadatos y vocabularios controlados.

La recuperación de información es parte de un complejo sistema de comunicación entre los autores de la información registrada en los documentos y los usuarios que la solicitan. Por tanto, la función principal de los trabajadores de la información es planificar, diseñar, crear, desarrollar y mantener buenos canales o puentes para esta comunicación.

En cualquier sistema documental, cuando los documentos ingresan es necesario realizar una labor de análisis del contenido del documento en cuestión y una traducción al lenguaje de indización empleado. De la misma manera, cuando se efectúa una consulta hay que realizar también estas dos operaciones para traducir la petición de información del usuario en una consulta en los términos del lenguaje de indización.

En la cadena documental, el análisis documental consiste del resumen en texto libre y la indización en lenguaje controlado de los documentos.

Como alternativa al lenguaje documental, puede recurrirse al lenguaje empleado en el propio documento para realizar dicha representación; en este caso, se hablará de indización y recuperación en lenguaje libre.

Algunos autores, entre los cuales se encuentra Angós Ullate, plantean que, a la hora de elaborar las descripciones de los recursos de información, es muy importante el uso de lenguajes normalizados y de índices para facilitar la recuperación de información.

Sin embargo, desde que la World Wide Web se ha generalizado como medio de difusión y publicación de información, los índices se elaboran, por lo general, con términos extraídos del lenguaje natural, y se echa en falta la descripción bibliográfica de los documentos.

La falta de normalización en la creación de los índices y la descripción de los documentos tiene consecuencias negativas, imposibilitan la búsqueda de información pertinente y hacen que el proceso de recuperación de la información sea deficiente.

Por esta razón, la etapa de análisis documental se ha convertido nuevamente en la clave de este proceso: el uso de tesauros, encabezamientos de materias u otro tipo de vocabularios controlados para la descripción de los diferentes elementos de un documento en las etiquetas META, son aún muy importantes en la descripción de los documentos en Internet, y se debe seguir realizando.

Méndez, por su parte, opina que los tesauros en el contexto de la información distribuida de la intranet, estructurada por metadatos, proporcionarán un soporte a la recuperación de información basado en el conocimiento y facilitará la combinación de múltiples bases de datos o la unificación del acceso a diversos contenidos. Los tesauros en estos sistemas de información serán, entonces, algo más que una mera herramienta para la indización: son el soporte semántico de la metainformación.

En esta misma línea, Blain afirma que el más importante aspecto [...] concierne a cómo están representados los documentos en un sistema. La computadora más rápida o las más sofisticadas técnicas de búsquedas no pueden superar los problemas derivados de una pobre representación [de naturaleza lingüística] de los documentos.

Mientras, Gill Urdiciain plantea que el lenguaje libre ofrece la posibilidad de recuperar información muy especializada y actualizada, cuya terminología o no está incluida en el vocabulario controlado, o no está representada de forma suficientemente específica. El lenguaje libre neutraliza las deficiencias del lenguaje controlado y viceversa, y por esto ambos sistemas no solamente no son antagonistas sino que se complementan el uno al otro.

En ocasiones, los especialistas en información se enfrentan al problema de que no existen entre los términos finitos de un lenguaje controlado (tesauro) determinado, algunos de los descriptores necesarios para indizar un documento. En estos casos, es muy socorrido recurrir al lenguaje natural y más aún en el contexto de Internet, donde un mismo sitio puede tener información de diferentes disciplinas.

En los sitios de carácter general, deben emplearse tesauros también de carácter general; por eso, puede ser muy común no encontrar los términos adecuados para la descripción de la información concerniente a cada página Web. Recurrir, en estos casos, al lenguaje natural y combinarlo con el lenguaje controlado es una solución. Ahora bien, no debe perderse de vista que siempre que sea posible la utilización de un lenguaje controlado se estructurará mejor la información y, por tanto, su recuperación será mas efectiva.

Sin embargo, no se debe perder de vista que el uso del lenguaje natural o libre conduce a la ambigüedad y ella incrementa significativamente la cantidad de recursos de información que se recupera, pero reduce la precisión o relevancia de la información recuperada. Por esta razón, siempre que sea posible es muy importante la utilización de un vocabulario o lenguaje controlado para ofrecer una mayor consistencia a las palabras utilizadas y a la indización en sentido general, y eliminar los problemas de polisemia y sinonimia que tanto afectan la recuperación de la información.



FUENTE:

Teoria de los metadatos : La recuperación de información. En : http://bvs.sld.cu/revistas/aci/vol14_5_06/

No hay comentarios:

Publicar un comentario