Esta semana, coincidiendo con la visita de
los padres del invento y
el gran cónclave mundial de los 'weberos' del mundo, han tenido lugar algunos encuentros que, encuadrados en el programa de seminarios de
la red investigadora MAVIR, han repasado algunos de los desafíos más importantes del procesado de lenguaje natural, recuperación y extracción de información y campos científicos afines. Se han tocado muchos aspectos clásicos relacionados con un área de conocimiento específica que no es la mía, pero que aportan una serie de motivaciones profundas que dan lugar a una reflexión a muy alto nivel que quizás pueda servir para motivar el desarrollo de otras ideas.
Han sido tres seminarios que, salvando sus todavía anacrónicos formato y entorno, han cumplido el expediente en cuanto a problemas técnicos e incompatibilidades ;) En el más reciente ha sido
Miriam, una colega investigadora de la UAM, quien ha presentado su trabajo en la recuperación de información semántica basada en ontologías. El objetivo de
su trabajo, la propuesta de un modelo para un sistema flexible que apenas necesitaría de la generación de un conjunto mínimo de clases raíz para poder trabajar con cualquier ontología de dominio, resulta prometedor de cara a esa visión de una Web de próxima generación que nos coloque un poco más cerca de
la Web de datos que comentaba Berners-Lee como reinvención de la
Web Semántica, por ejemplo. Estamos hablando de la ingeniería de unas tecnologías básicas para un todavía utópico escenario en que podríamos disponer de bases de conocimiento asociadas a lo que hoy no son más que repositorios de documentos, anotados de mil formas, automáticas, manuales, semi-automáticas... Pero, ¿Podemos pensar en modelar algunos de los procesos de anotación e/o indexación cuya automatización y optimización se persiguen en este tipo de propuestas, de tal forma que se pueda integrar un proceso "idealizado" de generación cooperativa de ontologías por parte de los usuarios en la Web?

En el encuentro inmediatamente anterior, un tipo muy pragmático al que no tenía ubicado,
Satishi Sekine, no pudo mostrarnos algunas de sus propuestas concretas para otro desafío relacionado, el descubrimiento semántico de conocimiento (
Semantic Knowledge Discovery, SKD) que, de alguna forma, buscan ir más allá de la "simple" extracción de información (entendida como la preparación del conocimiento para un determinado escenario dado) mediante métodos de aprendizaje no --o al menos mínimamente- supervisados.
El modelo que propone para la extracción de información bajo demanda,
ODIE (
On-Demand Information Extraction), incluye un sistema de recuperación de información y un proceso para el descubrimiento de patrones y su agrupación, apoyado en un "anotador" que se basa en las entidades extendidas, ENE (
Extended Named Entities) que el mismo Sekine ha desarrollado pensando en un escenario en que la información que uno puede estar buscando se puede encontrar en forma textual conteniendo nombre, expresiones temporales y valores numéricos... Lo primero que a uno se le ocurre es pensar ¿Qué pasará con esta infraestructura tecnológica para la extracción de conocimiento a partir de información textual en un más que previsible escenario donde predomine la información multimedia audiovisual?
¿En qué dirección avanza, por ejemplo, la extracción de metadatos a partir de objetos multimedia?El caso es que el planteamiento de fondo de este investigador japonés (creo) va dirigido a la utilización del contexto para la extracción (búsqueda siendo ortodoxos) de conocimiento, es decir que contempla la necesaria existencia del conocimiento que se quiere encontrar y las estrategias para buscarlo. Esa es la esencia de los procesos semánticos de descubrimiento de conocimiento en la Red tal y como los plantean los investigadores de este área tan específica. Su solución (ya decía que tiene pinta de ser un tipo muy pragmático) tiene nombre,
Ngram Search Engine, y se basa en una
búsqueda "Trie", es decir que su estrategia es ir descolgándose por el típico array "asociativo" estructurado en forma de árbol de prefijos... Lo suyo es ir a verlo funcionar en su sitio, darle un poco de caña, documentar los resultados, empaquetarlo todo con alguna idea peregrina (con el adecuado barniz de marketing garrafón) para acercarnos a la siguiente edición del simposio Semantic Knowledge Discovery, Organisation and Use que ha organizado el propio Satoshi por primera vez en noviembre contando prácticamente con todos los que en este mundillo son.
Alejándonos --que no olvidándonos- un poco de los desafíos que planteaban las ideas de esos dos seminarios resultaba si cabe más motivador la primera de las tres sesiones.
Andrew Borthwick, como científico jefe de
Spock Network, abordaba la solución de esta start-up "dos-punto-cero" ;) nacida hace apenas tres años, para búsqueda de personas en la Web. Su motor, lanzado con gran ruido mediático en 2007 (http://www.wired.com/techbiz/startups/news/2007/08/spock_reputation) y que se puede integrar en el Firefox como cualquier otro de los que habitualmente utilizamos, implementa una arquitectura GATE basada en JAPE, Java Annotation Patterns Engine (curiosamente redirigida a "humor informático" en Wikipedia en el momento de escribir estas líneas :) y ha participado en
la campaña WePS de la UNED.
A pesar de que la solución que aporta este gente tiene sentido dentro del área de investigación que, en sentido amplio, compartían las tres sesiones, al seguir la exposición Andrew no podía dejar de pensar en el sentido que puede tener la búsqueda de personas a partir de este tipo de documentos con información textual que ahora compone el grueso de la Web que conocemos. Aparte de lo que ya decía más arriba acerca de los objetos multimedia y de cómo se anotan los nombres de personas que aparecen en documentos audiovisuales, por ejemplo, me interesa más pensar aquí en el replanteamiento del problema mismo de la búsqueda de personas en términos de "identidad"... ¿Es posible que fuera más eficiente invertir en un proceso semi-automático de construcción de la identidad digital compuesto, digamos inicialmente, de la información que nosotros introducimos en los servicios online para la gestión de nuestras redes sociales, complementada con las anotaciones que otras personas pudieran añadir sobre nosotros además de los propios procesos automáticos para la extracción de información y conocimiento?