La web semántica responderá mejor a nuestras necesidades

La Red está a reventar de información, pero seguimos sin sacarle todo el partido. Los buscadores son todavía herramientas burdas, pero la Web Semántica podría cambiar las cosas

Juan Ignacio Cabrera

Apertura internet web semántica

18 mayo 2012

La Red está a reventar de información, pero seguimos sin sacarle todo el partido posible. Los buscadores son todavía herramientas burdas que matan mosquitos a cañonazos. Sin embargo, la Web Semántica podría cambiar las cosas.

Cuando uno intenta entender qué es eso de la Web Semántica, un término acuñado por Tim Berners-Lee, uno de los padres de Internet, corre el peligro de perderse en un debate de académicos y visionarios trufado de siglas y estándares. La Web Semántica es una propuesta de futuro, que no existe o que está en pañales, con lo que cuesta mucho identificarla, y sigue circunscrita a entornos de desarrollo de universidades, start-ups e ingenierías muy especializadas. Sin embargo, es una tecnología que, si llega realmente a materializarse, propone una experiencia mucho más rica que la que tiene un internauta hoy en día ante un ordenador.

Tim Berners-Lee, director del W3C

Tim Berners-Lee dirige el W3C, que genera todo tipo de recomendaciones técnicas y sobre estándares para Internet.

Para intentar arrojar algo de luz, hemos preguntado a varios expertos en qué consiste esto de la Web Semántica. Lluís Codina, profesor en la Universidad Pompeu Fabra y que ha escrito un libro específico sobre la materia junto a varios autores (Web Semántica y sistemas de información documental), habla de un «conjunto de normas y especificaciones técnicas destinadas a tratar la información, de manera que sea más fácil de interpretar por parte de los programas de ordenador». «Aunque la mayoría de páginas web son generadas a partir de bases de datos donde la información está bien estructurada (por ejemplo, en tablas con filas y columnas), después esta estructura se pierde bajo distintas capas de estilo y formato. Por lo tanto, extraer información de estas páginas e interpretarla automáticamente es difícil. La Web Semántica resuelve este problema», explica Ricardo Baeza Yates, vicepresidente de Yahoo! Labs en Europa. Es decir, sería como enseñar a la propia Internet a interpretar y vincular la gigantesca cantidad de información que atesora, permitiéndole así comunicarla de la manera más útil e intuitiva posible.

Uno de los objetivos es permitir a los usuarios comunicar con Internet usando el lenguaje natural, escrito o hablado. La idea es que preguntemos a un buscador del mismo modo que lo hacemos a un amigo o a un colega del trabajo. Para facilitar este aprendizaje a las máquinas, los programadores utilizan marcadores o tags (que técnicamente se conocen como metadatos), que hacen reconocible la información a los motores de búsqueda y otros programas de extracción. Además, se ayudan de lenguajes que jerarquizan estos datos y articulan las preguntas que podemos hacer.

Aplicaciones

Una de las aplicaciones más claras de la Web Semántica está asociada a los buscadores. Gracias a las etiquetas adicionales y al trabajo del software que la hace posible, esta clase de herramientas podrán contestar directamente a las preguntas de los usuarios, en vez de vomitar una pila de enlaces donde somos nosotros los que tenemos que bucear para encontrar la información deseada. Idealmente, los buscadores nos darán la información debidamente confeccionada con aportaciones de múltiples páginas. Digamos que nos interesamos por el actor Matt Damon. Pues bien, una Internet inteligente nos respondería con un documento formado por su perfil (sacado, por ejemplo, de Wikipedia), fotos y comentarios de su blog personal, vídeos con escenas de sus películas (de Youtube) y críticas de sus películas publicadas por diversos medios.

Pero no queda ahí la cosa. «Si la Web Semántica fuera una realidad, deberíamos disponer de agentes inteligentes, una especie de buscadores/gestores personalizados, capaces de satisfacer todas nuestras necesidades de información», dice Rafael Pedraza-Jiménez, profesor de la Pompeu Fabra. Y es que si se cumplen los vaticinios en torno a la Web Semántica, Internet debería hacer, por sí sola, todo el trabajo. Es decir, que si le preguntáramos por un viaje a Nueva York, nos daría información de la ciudad, del tiempo y de las conexiones de transporte, pero también sería capaz de comprarnos los billetes de avión, reservarnos un hotel en el SOHO y comprarnos unas entradas para un espectáculo en Broadway.

Sin ir tan lejos, la Web Semántica también posibilitará a una página reutilizar información que ya ha sido publicada en otra, pero que es pertinente. Como dice Xavier Uribe-Etxeberría, CEO de Anboto, una start-up vasca especializada en asistentes virtuales, podremos acceder a una página para comprar un coche cuyas características expuestas no provienen precisamente de esa página, y sí de otra donde la información se actualiza a cada minuto.

Anboto

En todo caso, por el momento la cosa va más despacio y los logros son más modestos. Los agentes inteligentes que deben buscar y juntar por nosotros la información no han funcionado hasta la fecha. «La Web Semántica hoy se reduce básicamente a la creación de sistemas de búsqueda muy eficientes para entornos muy controlados», dice Rafael Pedraza-Jiménez. Ricardo Baeza habla de los últimos avances de Yahoo! «En Yahoo! Search, el resumen de las páginas de la Wikipedia contiene el primer párrafo del artículo, la foto principal y los enlaces directos a las distintas secciones del artículo. Esto es posible porque el buscador entiende dónde comienza el artículo, qué foto es relevante y dónde comienza cada sección».

Los proyectos más interesantes en el campo de la Web Semántica se pueden encontrar en el site del W3C, el consorcio que promueve estándares en el ámbito de Internet. A nivel mundial, son interesantes los trabajos realizados por la NASA y la BBC británica. En España, también encontramos iniciativas en ayuntamientos, fundaciones o bancos. El consistorio de Zaragoza implantó una herramienta de búsqueda semántica para ayudar a sus ciudadanos a encontrar más fácilmente el servicio que necesitan. Antes las búsquedas eran tortuosas. La Fundación Marcelino Botín también incorporó esta tecnología para facilitar el acceso a la información que sobre el patrimonio y la historia de Cantabria atesora. Era una información que estaba muy dispersa. Por su parte, Bankinter también se vale de esta tecnología para ayudar a sus empleados a compartir nuevas ideas. Aquellos con sugerencias que hacer tienen una herramienta que les pone en contacto con otros que han hecho aportaciones en el mismo campo.

Queda mucho por hacer

Apertura internet web semántica

En cualquier caso, la Web Semántica está en ciernes, muy lejos de llegar a su madurez tecnológica y también de popularizarse. El listado de proyectos referenciados por la W3C es solo de 32, y eso en toda una década de desarrollos. «La Web Semántica no se espera para mañana, ni para pasado mañana. Siempre que se ha dado una fecha, aunque haya sido a muchos años vista, se ha incumplido», asegura Lluís Codina. Codina también dice que la confianza en las posibilidades de la Web Semántica que mostraron Tim Berners-Lee (que escribió un artículo muy celebrado titulado precisamente The semantic web, -clic para descargar-) y otros gurús en 2000 y 2001 se ha ido evaporando con los años, y ahora las expectativas son más conservadoras.

Por otra parte, según algunas fuentes, solo un 5% de las páginas han adoptado RDF, el lenguaje que permite añadir datos semánticos (metadatos) a los contenidos de Internet. Pero cuidado, porque algunos consideran este dato bastante optimista. Juan Antonio Pastor Sánchez, experto de la Facultad de Comunicación y Documentación de la Universidad de Murcia y autor del libro Tecnologías de la Web Semántica, no cree que sea muy indicativo del desarrollo de esta tecnología el porcentaje de páginas web con RDF, toda vez que no es un formato pensado para su uso en páginas convencionales, que seguirán utilizando XHTML y HTML5. Además, dice el profesor de la Universidad de Murcia, un 5% puede, en realidad, no ser tan poco como parece, porque en Internet hay mucha información redundante y muchos datos tienen muy escaso interés.

En este sentido, también se expresa Ricardo Baeza Yates, de Yahoo! Labs, que aclara que no vamos a necesitar que la totalidad de páginas web usen RDF, ya que no todas contienen información estructurada y en muchas predominan archivos de otro tipo, como vídeos, imágenes o sonido, que requieren otros tipos de tecnologías. En cualquier caso, en una entrevista concedida al diario El Mundo el pasado verano, Jeff Jaffe, presidente ejecutivo del W3C decía que estamos en un punto de inflexión y que la gente está por fin aprendiendo a usar e implantar estos desarrollos. Nos obstante, otros consultados no son tan optimistas.

Temas Relacionados