Titulares: Cuarta jornada de bombardeos sobre Gaza Inicio M(r)gentes: las nuevas voces de la Red en 2008

martes, 30 diciembre 2008

Proyecto i: Robots, nuestros aliados tecnológicos

Como ya os contamos en el primer boletín, nuestra apuesta para el Proyecto i vendrá del cruce de contenidos generados por parte de máquinas, periodistas y usuarios. Vamos a desgranar aquí el primer vértice de nuestro triángulo, el de la información generada, recopilada y jerarquizada por robots, los realmente nativos y puros representantes del territorio digital.

Internet es un medio mucho más profundo que cualquier otro soporte y, pese a la bondad que esto supone, también implica cierto desorden debido al enorme volumen de información existente. Desde el comienzo de la Red, existen importantes actores en la recopilación, tratamiento y ordenación de la información: los robots. Mucho más allá de la actualización de los datos, las máquinas van aprendiendo a ser cada día más inteligentes y pueden desarrollar labores básicas, pero masivas, de recopilación y estructuración de información.

Hace poco, Thomson Reuters presentó un estudio en el que auguraba un crecimiento de la información generada por programas informáticos. Chenery, un alto cargo de la compañía declaraba: "Siendo proveedores de ese tipo de información y tecnología nos permitirá que los periodistas dediquen más tiempo al desarrollo de exclusivas o a escribir más información". Suscribimos completamente esa frase. Parte de los problemas actuales vienen porque demasiada gente se dedica a labores que podrían mecanizarse y no a aquellas en las que los periodistas o creadores de contenidos aportan valor.

Por mucha atención y fuentes que manejen los seres humanos, es muy difícil estar al tanto con rapidez de todo lo que existe en la Red, de lo que pasa, de lo que se lee o interesa y de aquello que no. Para todo eso, así como para actualizar continuamente los datos, son mucho mejores las máquinas. En décimas de segundo pueden ver y procesar alertas, tendencias y modas, al tiempo que analizan lo que otras máquinas, periodistas o lectores están haciendo con la información: aquella que destacan, guardan o comentan. Hacer esto sería un trabajo titánico para los seres humanos.

En EE UU, el fenómeno de la agregación de contenidos está abanderado por webs como Topix, Daylife o Google News, que hoy ya pelean entre el Top 10 de los medios más consultados en EE UU. En España, además de Wikio y Cunoticias.com, uno de los ejemplos más avanzados es lalistawip.com, donde una redacción de robots analiza, busca y ordena diariamente información en torno a personajes.

Nuestro ‘Proyecto i’ pretende recoger esa filosofía, la de dejar las labores básicas en manos de las máquinas y permitir que los periodistas se dediquen a contar historias y a investigarlas. También la de facilitar la consulta de información y construir un medio de medios donde permanecer informado sobre cualquier tema, lugar o personaje con todas las fuentes posibles.

Hay una parte de nuestro nuevo medio en la que no seremos un destino final sino una buena guía de destinos. Para construir esta parte del nuevo hipermedio nos basaremos en robots pero, a diferencia de otros webs basados en agregación de contenidos, el trabajo de las máquinas estará continuamente supervisado por periodistas, que dictarán reglas, guiarán y enseñarán a las máquinas a realizar y perfeccionar su labor. Algo así como poner a las máquinas al servicio de los periodistas.

EL FUNCIONAMIENTO
Vamos a explicar a grandes rasgos de qué estamos hablando:

1.- Monitorización en tiempo real. A través de ‘bots’ (robots que recorren Internet) se analizarán en tiempo real los RSS de más de 1000 fuentes en español para localizar, catalogar y ordenar las noticias a medida que se vayan generando. ¿Cómo lo haremos? Mediante revolucionarias y novedosas técnicas de web semántica, que “leerán” y “traducirán” los datos de los sites y harán la información comprensible para las máquinas.

2.- Procesamiento. Con estas técnicas analizaremos la información de modo inteligente y la agruparemos en torno a eventos, tags o categorías temáticas, personajes, países, organismos, empresas y grupos.

El sistema será capaz de distinguir metáforas y situar frases y palabras en su propio contexto. Por ejemplo, una noticia que habla de “la guerra del fútbol” no quedará etiquetada como ‘Guerra’ o ‘conflicto bélico’. También será capaz de distinguir si una noticia habla, por ejemplo, de Alonso (ministro) o Alonso (piloto) y geolocalizar la información.

Los objetivos serán dos, cubrir el mayor ámbito informativo posible y ofrecer la mejor información en el menor tiempo. En total, el Proyecto i contará con más de 30.000 portadas entre categorías, personajes y conceptos de todo tipo. De esta forma, cualquier lector podrá conocer las últimas y más relevantes noticias del tema que más le interese.

3.- El Inforank. Intentaremos dar un paso más con respecto a webs como Google News y dotaremos a los resultados de una jerarquía informativa real. Para ello hemos creado el Inforank, nuestra herramienta estrella y uno de los algoritmos más sofisticados de la Red. El Inforank se basará en una combinación de casi 20 criterios, donde se ponderará en tiempo real la importancia de la fuente con respecto a cada tema y la relevancia de las noticias teniendo en cuenta factores como su interés, impacto, debate, contextualización, notoriedad y vigencia.

robots

4.- Agrupación de noticias. Una vez ponderadas, se agruparan automáticamente las noticias de un mismo tema (gracias a una técnica llamada clustering) elaborando un ránking y destacando la mejor versión. El objetivo, intentar mostrar al lector qué noticias son más importantes de cada tema y quién está informando mejor.

5.- Pluralidad de fuentes. Las fuentes que utilizaremos serán fundamentalmente medios, aunque también se incorporarán contenidos de blogs, publicaciones especializadas, portales, ayuntamientos, etc… Es decir, toda fuente que pueda ser relevante en cualquier categoría temática.

Nuestro Inforank no será un algoritmo cerrado. Iremos modificándolo en función de los resultados, introduciendo nuevos criterios de valoración. A lo largo del próximo año también abriremos nuestro algoritmo a los lectores, para que cualquiera pueda intervenir en la ponderación de las fuentes.

A principios de enero empezaremos con las pruebas internas y tendremos las primeras páginas del Proyecto i. ¿Nos harán caso las máquinas? Apostamos a que sí.

PD. En esta ocasión os dejamos un tema llamado ‘The Robots’, del grupo Kraftwerk, los padres de la música electrónica. Ellos estarían en nuestro primer vértice del triángulo.

http://www.youtube.com/watch?v=VXa9tXcMhXQ

Compartir

TrackBack

URL del Trackback para esta entrada:
http://www.typepad.com/services/trackback/6a00e552985c0d88330105369ca582970b

Listed below are links to weblogs that reference Proyecto i: Robots, nuestros aliados tecnológicos:

Comentarios

Fuente You can follow this conversation by subscribing to the comment feed for this post.

Jeje, teneis un robot espía en nuestro despacho?, alguien nos esta copiando la idea, el funcionamiento,....hasta la clusterizacion,.....es broma, ya dije en su dia que las ideas van con los tiempos y estan ahi, solo hay que cogerlas y si eres capaz, llevarlas a cabo. Suerte.

Me parece muy interesante vuestro proyecto, en un país donde se hacen tan pocas cosas. Nosotros desde Revolumedia con nuestro equipo hemos trabajado en proyectos relacionados con tratamiento de lenguaje. Os comento algunas de las situaciones a las que nos hemos enfrentado:

- Estrategias de parseo de ficheros HTML. En muchas ocasiones estos ficheros no tienen los tags bien construidos y resulta ineficiente el uso de parsers XML.

- Lenguaje de contrucción primar la eficiencia(partes en C++) con la facilidad de mantenimiento (Java, C#, Prolog).

- Para la extracción de conocimiento real de los textos es muchas ocasiones es necesario pasar los textos por mecanismos de análisis sintáctico basados en potentes lexicones y gestión de conocimiento sintáctico para poder alimentar la red semántica de forma correcta.

Será interesante seguir vuestros avances, mucha suerte y ánimo.

Publicar un comentario

If you have a TypeKey or TypePad account, please Inicia sesión