La web semántica: el futuro de Internet

Desde que ha aparecido el concepto Web 2.0 no paramos de oír que el futuro de Internet pasa por conseguir que utilice el significado de las palabras en vez localizar simplemente términos o símbolos escritos. Esto es lo que pretende la web semántica

La web semántica: el futuro de Internet

18 junio 2008

Hace unas décadas, una de las máximas era «la información es poder», frase que curiosamente acuñó Francis Bacon en el siglo XVII, muy lejos de la era digital, en la que, ahora mismo, el caudal de información es tan grande que más que una ventaja se puede convertir en un inconveniente. Así, los primeros desarrolladores se dieron cuenta de que era necesario poner un cierto orden en la maraña de datos o establecer algún sistema que permitiera encontrar la información de un modo sencillo y rápido. De esta forma, aparecieron los primeros sistemas de búsqueda.

 

Los buscadores tradicionales utilizan técnicas de localización de documentos según la presencia en ellos de ciertas palabras clave introducidas como criterio de búsqueda. Así, por ejemplo, si escribimos distancia entre Madrid y Barcelona no obtendremos ese dato concreto, sino un listado de páginas que incluyen esas palabras. El sistema considera que, si contienen esos términos, posiblemente encontraremos la información que buscamos en alguna de las webs resultantes.

 

Aunque el concepto de web semántica es, en los últimos años, cada vez más frecuente, el término aparece por primera vez en 1998, gracias a los trabajos de Tim Berners-Lee y su equipo. Se podría decir que el término es casi tan antiguo como la propia Web que conocemos hoy en día. Y es que Berners-Lee, director del W3C, está considerado uno de los padres de Internet al ser uno de los creadores del lenguaje HTML (Hyper Text Markup Language) con el que se construyen las páginas web, el protocolo HTTP (HyperText Transfer Protocol) y las URL (Universal Resource Locutor) que permiten localizar las páginas a lo largo de la extensa red de redes.

 

El número de páginas en Internet crece tan rápido que, hoy en día, la saturación de información es problemática incluso con los buscadores actuales. Por tanto, hace falta un sistema más óptimo para encontrar información y, precisamente, la semántica viene a solucionar este caos existente. Así, este nuevo enfoque trata de facilitar la búsqueda rápida de la información que necesitamos entre el inmenso volumen de datos, en muchos casos inservible, que contiene Internet.

 

Estructura de la web semántica

La web semántica intenta que los sistemas sean capaces no sólo de mostrar la información que contienen las webs, sino también de comprenderla. De esta forma, es necesario crear un sistema de búsqueda que pueda entender lo que se le pide, comprender el contenido de los sitios, buscar, razonar y realizar deducciones lógicas para ofrecer una respuesta precisa al usuario sobre lo que ha preguntado. Para conseguir todo esto es necesario estandarizar las partes de la Web, es decir, el alfabeto, las referencias, el lenguaje, el formato, significados, conceptos y reglas y sistemas de deducción.

 

En este sentido, en el año 2001 Berners-Lee publicó en la revista Scientific American un artículo donde mostraba un gráfico (la imagen que acompaña a este artículo) representando cómo tendría que ser la estructura de la web semántica, que a continuación explicamos:

 

* Unicode: es la codificación de todos los símbolos usados en los distintos idiomas para que cualquier texto se pueda expresar en la Web.

 

* URI: es una ampliación de las actuales direcciones que se forma combinando las URL con las URN. Así, mientras las URL permiten la localización de las webs, las URN describen los recursos del dominio.

 

* XML + NS + XMLSchema. Aquí residen las diferentes tecnologías para que cada uno de los elementos de la Web puedan comunicarse entre sí.

 

* RDF + RDFS. Ayuda a la anterior y define el lenguaje universal con el cual expresar diferentes ideas en la web semántica.

 

* Lenguaje de ontologías. Ofrece los distintos criterios para clasificar toda la información. Las ontologías son modelos lógicos que definen los objetos que forman parte de un dominio específico y sus relaciones entre sí.

 

* Lógica. Esta capa contiene las distintas reglas de inferencia mediante las cuales el sistema podrá efectuar las deducciones.

 

* Pruebas. Será necesario el intercambio de «pruebas» escritas en el lenguaje unificador de la web semántica, que hace posible los razonamientos lógicos.

 

* Confianza. Los agentes serán escépticos sobre lo que leen en la web semántica hasta que hayan comprobado de forma exhaustiva las fuentes de información.

 

* Firma digital. Contiene el conjunto de datos encriptados que utilizan los ordenadores y los agentes para verificar que la información pertenece a una web específica y fiable.

 

Buscadores semánticos

Para facilitar las búsquedas en la web semántica, generalmente se utilizan una serie de lenguajes especiales promovidos por el consorcio W3C, que son RDF (descripción formal de recursos), SPARQL (lenguaje de consulta) y OWL (definición de ontologías). Una página construida con estos elementos permite convertir la web en una estructura en la que es posible compartir y reutilizar datos y documentos entre los diferentes usuarios. A continuación, vamos a analizar con más detalle estas partes.

 

RDF (Resource Description Framework) es un lenguaje de desarrollo de ontologías, recomendado por el W3C que proporciona información descriptiva simple sobre los recursos que se encuentran en la Web y las relaciones que se puedan establecer entre ellos. Se emplea, por ejemplo, en catálogos de libros, directorios, colecciones de imágenes, etc. Mientras que XML es un lenguaje para estructurar datos, RDF especifica metadatos. Son muy utilizados los RDFa (para introducir semántica en los documentos) y los RDFS o RDF Schema (para describir las propiedades y las clases de los recursos RDF).

 

Con RDFa se pueden representar los datos estructurados visibles en las páginas (eventos en calendarios, información de contacto personal, información sobre derechos de autor, etc.), a través de unas anotaciones semánticas incluidas en el código e invisibles para el usuario, que permitirán a las aplicaciones interpretar esta información y utilizarla de forma eficaz. Por ejemplo, una aplicación de calendario podría importar directamente los eventos que encuentra al navegar por cierta página, se podrían especificar datos del autor de cualquier foto o la licencia de uso de un documento que se halle en Internet.

 

SPARQL (SPARQL Protocol and RDF Query Language) es el lenguaje que se utiliza para efectuar consultas sobre RDF. Permite hacer búsquedas sobre los recursos de la web semántica utilizando distintas fuentes de datos. El pasado mes de enero, el W3C ha publicado ya como recomendación la especificación de SPARQL.

 

OWL (Web Ontology Language) consiste en un lenguaje de etiquetas para publicar y compartir datos usando ontologías, permitiendo, así, añadir más vocabulario para describir propiedades y clases. OWL es, en realidad, una extensión de RDF pero con una mayor capacidad expresiva. Actualmente tiene tres variantes, OWL Lite, OWL DL y OWL Full, que incorporan distintas funcionalidades en base a la complejidad de la sentencia. Así, por ejemplo, OWL Lite se usa para usuarios que necesiten una clasificación jerárquica y restricciones simples, mientras que OWL Full proporciona el máximo de expresividad y libertad sintáctica.

 

Concretemos todo esto con un ejemplo práctico. Con la web semántica, a la hora de buscar en Internet restaurantes en Madrid, podremos especificar que queremos encontrar los que estén abiertos los jueves a partir de las 20:30 horas. Y, además, nos interesan sólo aquellos ubicados cerca de nuestra casa. Actualmente, para lograr este resultado hay que excluir muchas páginas, y aun así no se garantiza el éxito de la búsqueda.

 

El futuro de la web

Todo esto que ahora parece ciencia-ficción es en lo que están trabajando investigadores de distintas empresas y organismos internacionales. En esta línea, tenemos un buen ejemplo en uno de los principales centros de investigación españoles en este campo: la Fundación CTIC. El Centro Tecnológico de la Información y de la Comunicación es una organización asturiana privada, sin ánimo de lucro y promovida por el Gobierno del Principado de Asturias cuya misión es desarrollar y promover iniciativas relacionadas con las TIC en la sociedad.

 

Contactamos con ellos y pudimos hablar con Luís Polo y Diego Berrueta, responsables del área de Web Semántica del Departamento de I+D+i, quienes nos comentaron algunos de sus actuales proyectos en este terreno. Así, en estos momentos tienen varios prototipos de búsqueda semántica en ámbitos como el arte, la medicina, o el gobierno electrónico. En esta última área, la Fundación CTIC ha desarrollado un buscador semántico para el Boletín Oficial del Principado de Asturias (BOPA) que simplifica la obtención de respuestas para las consultas sobre los temas más habituales (empleo público, subvenciones, ayudas públicas…) por parte de los usuarios.

 

En opinión de Polo y Berrueta, la búsqueda semántica se presenta como una de las prestaciones más interesantes de las que se están introduciendo con la llegada de la web semántica. Los investigadores ya han desarrollado buscadores que permiten encontrar personas, contenidos multimedia o productos de manera mucho más precisa de lo que conocemos hasta ahora. También existen ya aplicaciones capaces de localizar la información en la Web y responder con el dato buscado en lugar de con una lista de enlaces. Esta nueva generación de aplicaciones está saliendo ya de los laboratorios y en los próximos años sustituirán a los actuales buscadores.

 

De todas formas, la web semántica se encuentra mucho más cerca de lo que pensamos. De hecho, algunas de sus aplicaciones ya están incorporadas desde hace tiempo en nuestra vida internauta cotidiana. Un buen ejemplo de ello son los ficheros RSS. Se trata de formatos RDF basados en XML que permiten organizar y distribuir información según las preferencias de los usuarios. Los RSS contienen metadatos sobre fuentes de información suscritas que avisan a los usuarios que los recursos han cambiado y muestra los nuevos contenidos sin tener acudir directamente a la página.

 

Enlaces de interés

 

Webs interesantes sobre la web semántica

* Tim Berners-Lee: www.w3.org/People/Berners-Lee

* Blog personal de Berners-Lee: http://dig.csail.mit.edu/breadcrumbs/blog/4

* Web del W3C sobre semántica: www.w3c.es/Divulgacion/Guiasbreves/WebSemantica

* Web fundación CTIC: www.fundacionctic.org

* Tesis doctoral hipertexto de la Dra. Lamarca Lafuente: www.hipertexto.info

 

Buscadores semánticos

* AskWiki, buscador para la Wikipedia: http://askwiki.com

* Ayuntamiento de Zaragoza: www.zaragoza.es/tramites

* Buscador del BOPA: http://bopa.fundacionctic.org

* Hakia: www.hakia.com

* Lexxe: www.lexxe.com

* Powerset: www.powerset.com

* Semantic web search: www.semanticwebsearch.com/query/

* Swoogle: http://swoogle.umbc.edu