Web Scraping semántico en Al4Tour

Autor: Sergio MadrazoEl esquema de la imagen (se amplía al hacer click sobre él) representa la arquitectura o estructura de una parte de los desarrollos que hemos acometido en Al4Tour. En el piloto de escucha activa para establecimientos hoteleros se concibió un sistema para buscar, descargar, procesar y almacenar información disponible en portales opinión sobre hoteles.

Me apoyaré en este esquema para describir brevemente aspectos técnicos  del piloto. La búsqueda, descarga y procesado de datos los realizan Web Scrapers, y su almacenamiento una base de conocimiento (Sesame).

Trabajamos con dos fases de scraping de datos. En la primera obtenemos la dirección web (URL) en la que se encuentra el listado de hoteles sobre los que “habla” la página. La segunda consiste en obtener desde cada página de hotel otra lista de URLs: las correspondientes a cada uno de los comentarios que realizaron sus huéspedes.

El comentario ofrece información diversa: puntuaciones sobre el hotel, personal y servicios en general, textos describiendo las impresiones que se llevó el cliente en sus estancia y datos adicionales (su origen, edad, tipo de viaje que realizó, etc). Tras la descarga se procesan de tal forma que quedan estructurados siguiendo un formato propio de la web semántica (RDF). Son estos datos estructurados los que quedan registrados en la base de conocimiento y pueden ser consultados de forma sencilla y rápida.

Share

Comentaris tancats.