Políticos, fake news y big data (y 2)

El artículo anterior, publicado la semana pasada, trataba sobre las noticias falsas, su difusión y la necesidad de combatirlas. Empresas como Google o Facebook, universidades y centros de investigación como el MIT o Stanford, entre otros, han puesto en marcha investigaciones para desarrollar métodos capaces de identificar este tipo de noticias y evitar su difusión.

En este artículo se presenta un método propuesto por el equipo del Departamento de Ciencias de la Computación de la Universidad Internacional Islámica de Malaysia, publicado el 15 de septiembre de 2017 en la Revista de Tecnología de la Información Teórica y Aplicada, http://www.jatit.org/volumes/Vol95No17/7Vol95No17.pdf, con el título Algoritmo de detección de notícias falsas online (“Online fake news detection algorithm”).

Los humanos tomamos decisiones en función de la información disponible. Entonces, basándonos en la información que recibimos del entorno, tendemos a actuar de una determinada manera u otra. Precisamente, la publicación de noticias falsas tiene el objetivo de penetrar en nuestro corpus de información con el que tomamos decisiones e inducirnos a creer o dejar de creer en algo, o en hacer o dejar de hacer algo. Pero, las noticias falsas han existido siempre. ¿Qué hay de nuevo en esto?

Hoy en día cualquiera puede acceder a internet e informarse sobre cualquier tema y contrastar las noticias que recibimos. Teóricamente, hoy es más difícil engañar. Pero quizás estar más informado no evita engaños. Las noticias falsas adoptan la forma de noticias creíbles pero resultan imposibles de contrastar porque apuntan a una realidad que no es real y, por tanto, no existen elementos que permitan su contrastación. Esta debe realizarse de otra manera. Se trata de buscar información sobre la fuente de información, sobre el autor y sobre otros aspectos que deberían poderse encontrar en internet.

dudas

Aquí se propone un método desarrollado en esta dirección. Se trata de una serie de 4 algoritmos que clasifican las publicaciones en “fake” o reales y posicionarlas de manera que los administradores de las plataformas puedan cumplir con las exigencias éticas y legales dictadas por los gobiernos en materia de libre acceso a una información de calidad, veraz y sin ruido. La implementación de este método requiere un sistema previo de recuperación de información como, por ejemplo, el que ofrece Trawlingweb: entrada de contenidos, extracción y registro de metadatos (autor, título, dominio web, dirección web de la publicación, idioma, fecha, etc.), conversión de datos a formatos operativos y estructuración de los datos en tablas. El siguiente paso es poner estas tablas a la disposición de los algoritmos para que puedan realizar el análisis, la clasificación y el filtrado. Esta arquitectura permite el procesado y filtrado de las noticias a medida que van siendo subidas a la plataforma por los usuarios. Así una publicación válida puede ser detectada en pocos segundos y permitir su publicación, mientras que las ambiguas son retenidas para ser analizadas.

Para aquellos lectores poco familiarizados con el término “algoritmo”, quisiera dejar un apunte para facilitar la comprensión del artículo: un algoritmo es una pieza de software diseñada para ejecutar una tarea compleja: leer datos, procesarlos y retornar resultados. Un ejemplo muy simple de algoritmo que nos puede resultar muy familiar es la secuencia de operaciones necesarias para resolver una suma. Paso 1: disponer los números en columnas alineándolos a la derecha; paso 2: sumar por columnas de derecha a izquierda.

El primer algoritmo se centra en la identificación de la fuente desde la cual se realiza la publicación de la noticia. El segundo busca información sobre el artículo en las bases de datos de la propia plataforma y en Internet. El tercero clasifica la publicación como verdadera o falsa en función de los resultados establecidos por los algoritmos anteriores y, finalmente, el cuarto algoritmo la posiciona dentro la corriente de noticias. Veamos con más detalle estos cuatro algoritmos.

esquema

Cada elemento de una red es un nodo de dicha red y tiene asignado un código que lo identifica y distingue de los demás. Este código es su dirección IP y funciona igual que una dirección de correo postal. Así cada recurso, documento o publicación disponible en Internet tiene siempre la misma IP, de manera que existe una relación entre la fuente y el recurso. El nodo de la fuente deberá contener información sobre la publicación: el nombre del autor, el título de la publicación y otros datos relativos al post.

El primer algoritmo detecta si la IP es estática o es cambiante todo el tiempo. Si es estática y está registrada en la base de datos de IP válidas de la propia plataforma, donde se publica el post, entonces recibe la etiqueta “IP válida” y la fuente es declarada como válida. Si no existe en la base de datos entonces la IP es declarada ambigua y se pasa al equipo de verificación para que evalúe su validez.

Este método permite detectar publicaciones que proceden de nodos de red que cambian constantemente de IP precisamente para impedir su identificación y geolocalización. De hecho, existe una correlación muy alta entre este tipo de fuentes y los contenidos clasificados como “fake news”.

El segundo algoritmo comprueba que el nodo de la fuente contiene información sobre la publicación, como por ejemplo el nombre del autor y el título del post. Si la información está disponible entonces se añade la etiqueta “fuente válida”. En caso contrario, el algoritmo retorna la etiqueta ”fuente ambigua” y la registra para que el equipo de verificación la analice más tarde.

Este mismo algoritmo analiza también el título mediante una búsqueda del título y el tema del post en internet. Si lo encuentra, el sistema entrega un valor positivo y se garantiza que el post procede de una fuente legítima. En caso contrario el sistema retorna un valor negativo y lo pasa al equipo de verificación para su análisis.

El contenido del artículo se comprueba manualmente por el equipo de validación a partir de los resultados de los algoritmos 1 y 2. Si el contenido es correcto entonces recibe una etiqueta positiva. En caso contrario recibe la etiqueta negativa. Así el sistema va generando una matriz de datos donde cada registro corresponde a una noticia y cada columna corresponde al valor asignado en cada momento del análisis.

El tercer algoritmo analiza los valores de asignados a cada publicación y decide cuales son válidas y cuáles no. En función de si la IP de la fuente es válida o no, si el nodo de la fuente contiene información sobre la noticia o no, si el título y el contenido aparece en otros nodos de internet o no, el algoritmo válida la noticia o la declara falsa.

newsfeed

Finalmente, el cuarto algoritmo toma el resultado anterior y sitúa la noticia en una posición determinada dentro de la corriente de alimentación de noticias (feednews) de la plataforma. Si la noticia ha sido declarada como válida entonces es posicionada de manera que los usuarios la vean en primer lugar cuando acceden a la web. En caso contrario se posiciona en el último lugar del feednews con el objetivo que darle la menor visibilidad posible. Así las noticias reales reciben una mayor difusión mientras que las falsas no reciben ninguna.

Quiero agradecer a los autores del artículo utilizado para realizar este post:

SAKEENA M. SIRAJUDEEN,

NUR FATIHAH A. AZMI,

ADAMU I. ABUBAKAR

En el artículo original, el lector encontrará el código de los 4 algoritmos en lenguaje Java.

 

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s