lunes, 11 de octubre de 2010

Recursos digitales y recuperación de información

El desarrollo precipitado de las tecnologías de la información y las comunicaciones ha generado cambios revolucionarios en casi todas las esferas del quehacer humano. La bibliotecología y todas las ramas relacionadas con el manejo y uso de la información, por supuesto, no escaparon a esta realidad. En los últimos años, las bibliotecas experimentan una necesaria etapa de transformación y adaptación a las nuevas formas de procesamiento y manejo en sentido general de la información.

Durante siglos, las bibliotecas conformaron sus fondos a partir de la colección de objetos físicos, que debían adquirirse de alguna manera, y sobre los que la institución ejercía luego derechos de propiedad. Las colecciones eran entonces un conjunto de objetos físicos portadores de información, albergados en una localización física precisa, y patrimonio exclusivo de una institución. Los bibliotecarios desarrollaron, a lo largo del tiempo, criterios y políticas para la selección y procesamiento de aquellos materiales que se correspondían con los objetivos de su institución.

Internet produjo un cambio total de paradigma en relación con la selección, procesamiento y recuperación de la información. Muchas bibliotecas han dejado de ser una institución social cuya función principal era la conservación o preservación de los documentos almacenados en sus fondos, y no se trata solo del hecho de que en Internet los recursos son digitales, se trata también de que muchos son de acceso gratuito, y eso elimina uno de los aspectos que influía de manera significativa en el desarrollo de las colecciones de las bibliotecas tradicionales: la disponibilidad de recursos para la adquisición. En Internet, los recursos de información están al alcance de todos, siempre y cuando seamos capaces de desarrollar mecanismos que permitan su localización; el problema radica en cómo organizar la información en Internet para garantizar su localización y recuperación exitosa.

La facilidad para crear y publicar recursos de información que han permitido las nuevas tecnologías ha generado un crecimiento sin precedente en la cantidad y variedad de recursos de información disponibles en la red; esto, unido al hecho de que las redes de comunicación han permitido que los contenidos informativos puedan transmitirse en formato digital sin límites geográficos para el acceso, produce un cambio total en el quehacer de la bibliotecas y los profesionales de la información.

Algunos han llegado a vaticinar la desaparición de las funciones de las bibliotecas y de sus profesionales, pero como expresa Bermello Crespo, las bibliotecas han utilizado eficientemente los desarrollos tecnológicos de su época para elevar la calidad de sus servicios. El trabajo de los profesionales de la información ha estado marcado por los mecanismos y dispositivos disponibles para garantizar sus funciones bibliotecarias, pero nunca la tecnología ha determinado los objetivos que persigue la actividad bibliotecaria.

Las bibliotecas sobrevivirán y seguirán con sus nombres y funciones tradicionales: seleccionar, organizar, conservar y proporcionar acceso a los registros del conocimiento humano en todas las formas, los bibliotecarios deben introducir los cambios tecnológicos que acepte la comunidad a la que sirven y a las que necesariamente hay que educar y dirigir por nuevos rumbos, pero esto tiene que hacerse de manera razonable, tanto en su realidad como en la percepción de las cosas. Las bibliotecas sirven a la enseñanza y a la investigación, en la medida en que estas funciones cambien, las bibliotecas cambiarán también.

Uno de los mayores retos a los que se enfrentan los bibliotecarios actualmente es el procesamiento de la información en la red. Para asumir este reto, es necesario que conozcan las características o particularidades de este tipo de información en formato digital.

Heery y Burnett agrupan las características o particularidades de la información en formato digital en los siguientes aspectos:4,5
  • Organización: En los recursos digitales, la organización no es centralizada al estilo de un catálogo de biblioteca ni se organizan en tablas por atributos al estilo de los sistemas más conocidos en gestión de datos informáticos; tampoco se seleccionan ni se coleccionan. Mientras los recursos bibliotecarios se seleccionan y adquieren, los archivos de datos se solicitan y adquieren.
  • Ubicación: Poseen localización remota, frecuentemente de ninguna manera asociada a la institución, como es el caso de un registro de catálogo. Deben considerarse detalles como el modo de acceso disponible; por ejemplo, FTP, HTTP y restricciones a este, como contraseñas. Un mismo recurso puede residir en varios sitios diferentes.
  • Versiones: El mismo recurso puede existir en diferentes formatos, por ejemplo, Postscript, ASCII, etcétera.
  • Inestabilidad: Los datos tienen, a menudo, vida corta en Internet. Los archivos sufren traslados constantes entre distintos servidores y la dirección electrónica (URL) original deviene obsoleta. Los creadores cambian y desarrollan documentos en una URL existente, de forma que muchos recursos en Internet se encuentran bajo elaboración. Son móviles e inestables comparados con los recursos de naturaleza fija, estables, propios de la biblioteca e inseguros, a diferencia de los archivos de datos.
  • Redundancia: Las versiones viejas de documentos no se eliminan, o la información deviene obsoleta. Algunos recursos contienen datos de mantenimiento y revisión que brindan al lector información sobre su actualización.
  • Complejidad: Un sitio en Internet ¿es un documento o pueden ser varios? La existencia de interrelación entre páginas Web es otro signo a considerar en este punto. Una de las características de Internet es la información hipertextual. Los documentos se relacionan estrechamente mediante enlaces y muchas veces es difìcil determinar los límites de un documento o de un sitio.
Los procedimientos y herramientas que tradicionalmente han utilizado las bibliotecas para el procesamiento de sus colecciones en formato impreso, hoy no son adecuados para el tratamiento de los recursos de información en formato digital en Internet. Es preciso considerar que las dimensiones del conjunto de recursos de información en Internet son tan grandes, que impide a cualquier biblioteca abarcarlo todo y menos aún poder realizar su tratamiento documental.

Diariamente, en Internet aparecen miles de sitios, otros desaparecen, se mudan de dirección o modifican su contenido, para cualquier biblioteca tratar de controlar este fenómeno seria un reto inalcanzable. Las bibliotecas en Internet tienen necesariamente que seleccionar los recursos de información para sus usuarios en dependencia de sus necesidades en este sentido, tarea que no es fácil, por el caos que reina en la red.

Todas las organizaciones involucradas en la generación, recuperación y uso de los documentos digitales reconocen la necesidad de establecer normas que permitan estructurar su contenido y contribuyan a facilitar el proceso de búsqueda y recuperación de información. Esto, por supuesto, justifica la necesidad de que la información alojada en Internet disponga de alguna manera de un tipo de procesamiento documental que garantice su localización y recuperación exitosa; de lo contrario, se corre el riesgo de no poder acceder a mucha información valiosa y lo que es peor, desconocer totalmente su existencia.

Cuando se habla de procesamiento documental en Internet, se habla de metadatos, que surgen como respuesta a la necesidad de contar con una estructura adecuada para la descripción normalizada de documentos digitales a fin de posibilitar la localización y recuperación selectiva de la información en la red.


Fuentes:





Metadatos y vocabularios controlados.

La recuperación de información es parte de un complejo sistema de comunicación entre los autores de la información registrada en los documentos y los usuarios que la solicitan. Por tanto, la función principal de los trabajadores de la información es planificar, diseñar, crear, desarrollar y mantener buenos canales o puentes para esta comunicación.

En cualquier sistema documental, cuando los documentos ingresan es necesario realizar una labor de análisis del contenido del documento en cuestión y una traducción al lenguaje de indización empleado. De la misma manera, cuando se efectúa una consulta hay que realizar también estas dos operaciones para traducir la petición de información del usuario en una consulta en los términos del lenguaje de indización.

En la cadena documental, el análisis documental consiste del resumen en texto libre y la indización en lenguaje controlado de los documentos.

Como alternativa al lenguaje documental, puede recurrirse al lenguaje empleado en el propio documento para realizar dicha representación; en este caso, se hablará de indización y recuperación en lenguaje libre.

Algunos autores, entre los cuales se encuentra Angós Ullate, plantean que, a la hora de elaborar las descripciones de los recursos de información, es muy importante el uso de lenguajes normalizados y de índices para facilitar la recuperación de información.

Sin embargo, desde que la World Wide Web se ha generalizado como medio de difusión y publicación de información, los índices se elaboran, por lo general, con términos extraídos del lenguaje natural, y se echa en falta la descripción bibliográfica de los documentos.

La falta de normalización en la creación de los índices y la descripción de los documentos tiene consecuencias negativas, imposibilitan la búsqueda de información pertinente y hacen que el proceso de recuperación de la información sea deficiente.

Por esta razón, la etapa de análisis documental se ha convertido nuevamente en la clave de este proceso: el uso de tesauros, encabezamientos de materias u otro tipo de vocabularios controlados para la descripción de los diferentes elementos de un documento en las etiquetas META, son aún muy importantes en la descripción de los documentos en Internet, y se debe seguir realizando.

Méndez, por su parte, opina que los tesauros en el contexto de la información distribuida de la intranet, estructurada por metadatos, proporcionarán un soporte a la recuperación de información basado en el conocimiento y facilitará la combinación de múltiples bases de datos o la unificación del acceso a diversos contenidos. Los tesauros en estos sistemas de información serán, entonces, algo más que una mera herramienta para la indización: son el soporte semántico de la metainformación.

En esta misma línea, Blain afirma que el más importante aspecto [...] concierne a cómo están representados los documentos en un sistema. La computadora más rápida o las más sofisticadas técnicas de búsquedas no pueden superar los problemas derivados de una pobre representación [de naturaleza lingüística] de los documentos.

Mientras, Gill Urdiciain plantea que el lenguaje libre ofrece la posibilidad de recuperar información muy especializada y actualizada, cuya terminología o no está incluida en el vocabulario controlado, o no está representada de forma suficientemente específica. El lenguaje libre neutraliza las deficiencias del lenguaje controlado y viceversa, y por esto ambos sistemas no solamente no son antagonistas sino que se complementan el uno al otro.

En ocasiones, los especialistas en información se enfrentan al problema de que no existen entre los términos finitos de un lenguaje controlado (tesauro) determinado, algunos de los descriptores necesarios para indizar un documento. En estos casos, es muy socorrido recurrir al lenguaje natural y más aún en el contexto de Internet, donde un mismo sitio puede tener información de diferentes disciplinas.

En los sitios de carácter general, deben emplearse tesauros también de carácter general; por eso, puede ser muy común no encontrar los términos adecuados para la descripción de la información concerniente a cada página Web. Recurrir, en estos casos, al lenguaje natural y combinarlo con el lenguaje controlado es una solución. Ahora bien, no debe perderse de vista que siempre que sea posible la utilización de un lenguaje controlado se estructurará mejor la información y, por tanto, su recuperación será mas efectiva.

Sin embargo, no se debe perder de vista que el uso del lenguaje natural o libre conduce a la ambigüedad y ella incrementa significativamente la cantidad de recursos de información que se recupera, pero reduce la precisión o relevancia de la información recuperada. Por esta razón, siempre que sea posible es muy importante la utilización de un vocabulario o lenguaje controlado para ofrecer una mayor consistencia a las palabras utilizadas y a la indización en sentido general, y eliminar los problemas de polisemia y sinonimia que tanto afectan la recuperación de la información.



FUENTE:

Teoria de los metadatos : La recuperación de información. En : http://bvs.sld.cu/revistas/aci/vol14_5_06/