Javier Pastor

“Las palabras vuelan, lo escrito permanece”. Ese es el lema deVerba, un proyecto de Civio dirigido por David Cabo para analizar la cobertura de los Telediarios de Televisión Española desde 2014.

El proyecto —que además es Open Source— ve la luz estos días tras meses de trabajo, y lo hace demostrando que no todas estas ideas geniales tienen por qué salir de alguna startup de Silicon Valley.Hemos podido hablar con Cabopara que nos cuente cómo se concibió Verba, qué nos permite hacer y qué futuro le espera a esta interesante iniciativa.

Los orígenes de Verba

Civioes una organización independiente y sin ánimo de lucro que lleva años combinando periodismo y tecnología porque como decía David Cabo (@dcabo), su fundador, “la tecnología está a merced del periodismo”. En este caso, para —como ellos mismos explican— “vigilar a los poderes públicos, informar a todos los ciudadanosy presionar para lograr una transparencia real y eficaz en las instituciones”.

La búsqueda de la transparencia y el acceso de informaciónque persigue Civio se han ido demostrando a través de esfuerzos como ‘el BOE nuestro de cada día’ con el que Eva Belmonte (@evabelmonte) acerca a los ciudadanos las conclusiones de cada uno de los Boletines Oficiales del Estado que se publican, o ‘Medicamentalia’, una investigación periodística de Ángela Bernardo (@maberalv) sobre la brecha global en el acceso a la salud, entre otros proyectos.

Este proyecto llamado Verba, no obstante, es muy diferente. David Cabo nos contaba como hace unos años vio en Estados Unidos una emisión con las sesiones del Congreso en la que surgió la idea: en el sitio web de"A la carta" de RTVEcomprobó que cada Telediario contaba con subtítulosque no solo estaban disponibles al reproducir el vídeo: también se podían descargar.

Eso se unió a un debate recurrente que entonces comenzaba a surgir sobre las temáticas que se cubrían en los informativos de la televisión pública estatal.¿De qué se hablaba en cada Telediario, y cuánto tiempo?

Los subtítulos permitían responder a esa pregunta, y tras conseguir una becaGoogle News Initiative—que incentiva el uso de la tecnología en la industria de los medios de comunicación— pusieron en marcha el proyecto aprovechando un ámbito científico muy especial:el Procesamiento del Lenguaje Natural (PLN).

Perdona, ¿qué estás diciendo?

El Procesamiento del Lenguaje Natural ha avanzado de forma excepcional gracias a la introducción de algoritmos de aprendizaje automático (machine learning) para el procesamiento del lenguaje, y permite que las máquinas puedanprocesar grandes cantidades de datos procedentes del lenguaje naturalque usamos en nuestro día a día.

La técnica es perfecta para analizar y extrapolar información de esos subtítulos que ofrecían los Telediarios de RTVE. Como explicaba Cabo, Verba “tiene cierta complejidad técnica, pero no demasiada”. Su funcionamiento se basa en primer lugar en la descarga de los subtítulos, quese van agregando a una gran base de datosconstruida conElasticsearch, un potente motor de búsqueda distribuido.

Eso sí, destacaba Cabo, antes hay un paso intermedio: esos subtítulosse parten o dividen por frases gracias a una librería PLNque permite “diseccionar” cada Telediario en partes que luego facilitan encontrar resultados de búsqueda de forma eficaz.

A partir de ahíempieza el trabajo de la aplicación, realizada en JavaScriptconVue.js, y que a su vez hace llamadas a una librería de visualización llamadaD3.jsque es la que ofrece los resultados que ve el usuario al procesarse su búsqueda. Este proyecto de Civio, explicaba Cabo en el anuncio oficial, ha avanzado entre otras cosas gracias a la colaboración de expertos comoVíctor PeinadooPablo Rey.

Ya puedes saber cuándo se habló de cierto tema en el Telediario

Verbaconvierte los informativos de RTVE en una singular hemeroteca: una por la que es posible navegar con simples términos de búsqueda que además podremos combinar usandolos operadores de Elasticsearch. Así, podremos excluir términos (con el símbolo “-") o hacer por ejemplo búsquedas “OR” usando el símbolo “|” (por ejemplo buscando “Trump | Obama”).

La búsqueda no solo se puede compartir en redes —cada una genera una URL,como ocurre con nuestro ejemplo— sino que al hacerlaaparece un gráfico que muestra el número de apariciones de esos términos de búsquedaa lo largo de los años en los informativos de TVE. Podremos además descargar los resultados de la búsqueda en formato .csv.

Ese gráfico es una representación visual de esas apariciones, pero tendremos cada una de ellas disponibles con un pequeño extracto de la transcripción en el que se encontraron esos términos de búsqueda con el día y la edición del Telediario al que pertenecen. En esas “cajas” para cada resultado podremos además pasar el ratón por encima (el tradicionalhover) para acceder al contexto, lo que hará que aparezca una ventana pop-up con la transcripción algo más ampliada,pero también con un enlace directo al vídeo de esa retransmisión, que se abrirá en una nueva pestaña del navegador.

En ese vídeo podremos localizar fácilmenteel momento exacto en el que se nombraba el término o términos de búsqueda, porque esa información también aparece como parte de los datos publicados en cada resultado.

Además del buscador, en Civio ponen a nuestra disposiciónalgunos ejemplos de los análisis que se pueden realizara partir de esos resultados. En el apartado “Titulares” muestran cinco ejemplos de coberturas que se han realizado en el Telediario en los últimos años para analizar entre otras cosasel rigor científico al hablar de las dietaso la diferencia de cobertura que han tenido distintastramas de corrupción como la Gürtel o los ERE.

Esto es solo el principio

El servicio es funcional y su respuesta es sorprendentemente rápida y precisa, pero para David Cabo “solo hemos lanzado una primera parte”. Él y su equipo en Civio quieren “aplicar más tecnologías PLN” que entre otras cosas “permitan la extracción de entidades”. Gracias a esa capacidad Verba podrá reconocer nombres propios y diferenciarlos según el contexto.

Hay un ejemplo muy claro de las actuales limitaciones de Verba: de momentouna búsqueda de “Podemos” confundirá el partido político con el uso de la forma verbal, pero esa extracción de entidades ayudará a diferenciar entre uno y otro.

Como nos explicaba Cabo,esa opción “está cerca” de implementarse, pero no era lo precisa que hubieran querido y han preferido retrasar su lanzamiento. Para ofrecerla volverán a aprovechar técnicas de aprendizaje automático que con un montón de entrenamiento —y un pequeño truco, la detección de mayúsculas— permiten ayudar a diferenciar con ayuda del contexto entre unos casos y otros.

Para poder medir tiempos, estamos trabajando en partir las transcripciones en noticias individuales, y entrenando un modelo que clasifique las noticias en temas. Algo así:pic.twitter.com/rgnO61PwT7

No solo eso: David Cabo también apuntaba a otra opción de futuro especialmente interesante:la división de la transcripción en trozos clasificados por temas, de forma que en cada Telediario se sepa cuánto se ha hablado de deportes o de política, por ejemplo. De hecho la idea es poder realizar una clasificación muy precisa que permita saber cuánto se ha hablado de cada tema en cada informativo.

Eso permitirá responder a preguntas que ahora tienen respuesta algo más difusa comosi se está hablando poco, nada o mucho de diversas temáticasen los informativos de una cadena pública como RTVE, y hace que Verba se postule por tanto como una herramienta muy útil para analizar la verdadera transparencia de estos informativos.

Y aquí podemos encontrar, una vez más gracias a Civio, (hola,@evabelmonte) la promesa de Pedro Sánchez de derogar las leyes mordaza. Nada como la buena tecnología para aliviar la amnesia de los políticos.https://t.co/Qie1Y3GK3L

Eso, por supuesto,además de ser una “maldita (bendita) hemeroteca"que permita detectar qué se dijo, quién lo dijo y cuándo lo dijo, algo que algunos usuarios y expertos ya han descubierto.

Verba funciona con una base de datosconstruida a partir de 2014 por una sencilla razón: es el momento en el que RTVE comenzó a subtitular sus Telediarios y a poner en la web esos subtítulos.

¿Es factible que esa búsqueda acabe yendo aún más atrás en el pasado? Por supuesto,pero para eso necesitan la transcripción de esos informativos. Aunque han hecho pequeños experimentos para transcribirlos con sistemas automáticos —comoTranscribede Amazon—, Cabo nos indicaba que la conclusión es que ese proceso es costoso en tiempo y dinero.

Transcribir un solo Telediario no es muy caro, pero cuando hablamos de hacerlo con todos los informativos durante varios años la cosa cambia. En Civio hablarán de hecho con RTVE para intentar recabar más subtítulos de informativos anteriores, así que es factible que por una u otra vía acabe ampliándose ese rango de tiempo que está cubierto por Verba.

De hecho el proceso es totalmente extrapolable a los informativos de otras cadenas. En Civio trataron deobtener los subtítulos de los informativos como los de las privadas, pero no se publicano no lo hacen en un formato que sea fácilmente tratable para ellos de momento.

La idea de Cabo es ofrecer esta herramienta no solo a cualquier usuario —que puede replicar el proyecto sin problemasgracias al repositorio de GitHub donde está el código— sino aconsejos audiovisuales, universidades y facultades de periodismo, u organismos reguladores para que lo utilicen y puedan así sacar sus propias conclusiones.

Precisamente GitHub —en el apartado deIssues del proyecto— desvelamuchas de las claves de la evolución de un proyectoen el que David Cabo por ejemplo comparabadistintas plataformas PLNy también hablaba de los problemas a la hora dereconocer nombres propioso elcoste económicoque tendría ese procesamiento antes de llevarlo a cabo.

Lo que está claro es que Cabo y todo el equipo de Civio quieren ver crecer esta iniciativa. De hecho el fundador de Civioha realizado un llamamiento a la Comunidad Civio que nosotros extendemos.

Como él mismo decía tanto en lapresentación oficial del servicio en el blog de Civiocomoen Twitter, “si tienes curiosidad por estas cosas,pásate por la comunidad de Civioy hablamos”. No solo eso: si quieresayudarles a encontrar historias interesantes en los Telediariosa través de Verba,ya puedes hacerlo también gracias a su Comunidad.