Information Retrieval: 12 oct 2010

El lenguaje de marcado de hipertextos HTML (HyperText Markup Language) es una herramienta sencilla para especificar la estructura de los documentos en la red, a partir de un conjunto de etiquetas que sirven para definir la forma de presentar el texto y otros elementos de las páginas. La definición de tipo de documento HTML, con su estructura elemental, se orienta principalmente a describir los elementos estructurales (cabecera y cuerpo del documento) que aparecen en el hipertexto.

El HTML, por tanto, se comporta de forma superficial en la representación de la información e indica solo a los navegadores cómo deben representar la información en lugar del significado de la información.7 Para describir la información con el objetivo de recuperarla posteriormente, el HTML posibilita a los autores de las páginas Web especificar metadatos o información sobre los documentos.

En HTML, los elementos META o metatag se utilizan para que el propio autor pueda especificar información sobre el documento y se insertan en la cabecera del documento. Las etiquetas <META> son de aquellas que se llaman "elementos vacíos", porque no llevan etiqueta de cierre. Su estructura es la de una declaración propiedad: valor (de una propiedad y de un valor para esta propiedad) que puede realizarse de dos formas diferentes:

Desde dentro de un documento, por medio del elemento META.
Desde fuera de un documento, vinculando los metadatos por medio del elemento LINK.

Aunque la forma común de insertar metadatos en un documento HTML es por medio de la etiqueta <META> no existe ninguna regla sobre la información que se puede o no incluir en los metatags. El standard HTML define la estructura de una etiqueta META, pero no sus valores.

Por ejemplo:

<meta name="Author" content="Isabel Daudinot Founier" lang="es">
Esta declaración dice que el autor del documento es Isabel Daudinot Founier, e indica que el valor del atributo content está en español.
A continuación se describirán, con ejemplos, las etiquetas META de HTML más comunes: (Metadatos en html):

Description:

Keywords:

Estas dos etiquetas META (description y keywords) son las más importantes. Algunos buscadores leen estas etiquetas y juzgan sobre la importancia de la página, según ellas. Una buena descripción y un grupo de palabras clave correctamente asignadas, puede ayudar mucho a aumentar la visibilidad de una página Web.

HTTP-EQUIV:

Las páginas Web se distribuyen por Internet mediante el protocolo http, que regula el diálogo entre el servidor y el navegador. Con estas etiquetas, el autor de la página puede predeterminar aspectos de este diálogo.
Su sintaxis general es:
<meta http-equiv=”content-type” content=”text/html; charset=ISO-8859-1”/>

Con esta etiqueta META, se indica al navegador el tipo de documento: si es un documento html o un documento de texto plano o cualquier otra cosa que se desee indicar. En el ejemplo anterior, significaría que es un documento texto-html y que usa un juego de caracteres ISO-8859-1. esta información es útil para que el navegador de los visitantes conozca qué juego de caracteres debe emplear.

Refresh:

Mediante esta etiqueta y el valor refresh se indica al navegador que debe recargar la página una vez transcurrido el tiempo especificado. En la primera línea, un refresh simple, con orden de recarga a los cinco segundos. En la segunda línea, un refresh con redirección. El navegador debe refrescar la página a los cinco segundos, recargando en su lugar la especificada.

Expires:

<META HTTP-EQUIV=”expires” CONTENT= “Tue, 15 Dec 2002 21:29:02 GMT”>
Mediante la orden expires, se informa sobre la vigencia del documento. Su utilidad principal es la de evitar que el navegador guarde indefinidamente en caché una página y forzarlo a cargar las nuevas versiones. La fecha debe presentarse necesariamente en formato RFC840 (GMT), es decir:
día_de_semana, DD-Mon-YY HH:MM:SS TIMEZONE(Greenwich) todo eso en inglés.

Por ejemplo Fri, 01 Jan 2003 07:20:55 GMT

Si la fecha está expresada en un formato distinto, el valor de expires se interpretará como now, es decir, se fija una caducidad inmediata.

Pragma:

Ordena al navegador que no almacene una copia cache de la página. Resulta útil cuando se trata de páginas dinámicas cuyo contenido cambia frecuentemente. Su único valor aceptable es no-cache.

Set-cookie:

< META HTTP-EQUIV=”Set-Cookie” CONTENT=”nombre_cookie;expires=fecha_valor;path=/” />
Mediante este metatag, puede enviarse un cookie al navegador del usuario. Si contiene fecha de vencimiento, el navegador la conservará en el disco duro hasta dicha fecha; en caso contrario, se borrará al terminar la sesión de navegación.

Window-target:

Sirve para especificar el nombre de la frame donde la página debe cargarse. Por ejemplo:
<META HTTP-EQUIV=”window-target” CONTENT=”-top”>
Estas son las más corrientes de entre las dirigidas a tratar con los servidores. Las menos utilizadas son:
<META HTTP-EQUIV=”content-Script-Type” CONTENT=”text/javascript”>
<META HTTP-EQUIV=”content-Style-Type” CONTENT=”text/css”>
Ellas informan respectivamente el tipo de lenguaje script utilizado y el uso de CSS

Robots:

Se pueden ofrecer instrucciones a los robots de los buscadores acerca de qué páginas debe incluir en sus bases de datos y cuáles no. Sus valores son index, que indica la página que debe procesarse; noindex es justo lo contrario; follow indica al robot que siga los links que existan en la página y procese las páginas resultantes; nofollow lo contrario. Los valores por defecto se entiende que son index, follow (separados por coma).

Estas son las etiquetas META de mayor uso que contempla el HTML y que no están sujetas a ningún formato en particular. El autor de un recurso puede utilizarlas con los propósitos anteriormente descritos. Con el objetivo de dar mayor flexibilidad y precisión a la descripción de los documentos, pueden utilizarse en HTML, formatos normalizados de metadatos como el Dublin Core, TEI, entre otros. Estos formatos de metadatos se incrustarían igualmente en la cabecera del documento.

Aún cuando estas etiquetas META sirven para describir la información de los documentos en HTML, éstas no garantizan la flexibilidad y la semántica necesaria, el HTML tiene un conjunto de etiquetas prefijadas y finitas que resultan insuficientes, en muchos casos, para una descripción cabal de determinados recursos de Información.

La superficialidad e inflexibilidad del lenguaje HTML para la representación de la información obliga a la utilización de otro lenguaje más flexible que asegure una mayor consistencia en el procesamiento de la información en Internet y que conduzca hacia una Web más semántica, que asegure la interoperabilidad que la red necesita. Este nuevo lenguaje es, sin lugar a dudas, el XML, que representa una arquitectura de la información más abierta y flexible. Para la representación de la información en el nuevo escenario de XML, se utilizará el RDF (Resourse Description Framework) cuyas posibilidades para estructurar, intercambiar y recuperar información son infinitas.

Information Retrieval

martes, 12 de octubre de 2010

Metadatos y HTML