A partir del escándalo de Cambridge Analytica empezamos a oír hablar más del fenómeno del web scraping. De hecho, es una práctica que fue utilizada por esa empresa, en 2018, para recopilar todos los datos necesarios para el perfilado de los usuarios a partir de las distintas páginas y cuentas de Facebook. El caso tuvo una gran relevancia internacional porque involucraba a la red social y porque la cantidad de personas afectadas fue enorme. 87 millones de usuarios, todos perfilados con fines de propaganda política.
El web scraping funciona así. Cada página que el usuario abre con su navegador contiene código HTML y cualquiera puede guardarlo en su ordenador. Quienes se dedican al web scraping usan programas capaces de hacer lo mismo, pero por cada contenido publicado. Por ejemplo, en una página de Facebook y a lo largo de un año. Esto es lo que hizo Cambridge Analytica. Una acción automatizada de recopilación de datos que no estaban ocultos, sino a disposición de cualquiera.
A través de esta operación de ‘erosión’ de datos, es posible deducir cualquier información. Desde las redes sociales se pueden obtener los datos personales que los usuarios ponen a disposición de la plataforma. En las páginas de comercio electrónico se pueden comparar todos los precios de un artículo para evaluar cuál es el más conveniente. En las bases de datos de los sitios institucionales, se puede encontrar información sobre ciudadanos que hayan aprobado un examen, participado en una oposición o interactuado de alguna manera con la administración.
¿Cómo funciona el web scraping?
Después de todo, el web scraping no es más que una reproducción de la navegación humana. Suele producirse a través de cadenas de código que pueden ser más o menos simples. Y están al alcance de la mayoría de los expertos digitales. En los últimos tiempos, incluso después del caso de Cambridge Analytica, las redes sociales se han vuelto a convertir en el vehículo de sensacionales operaciones de data scraping.
En abril de 2021 se anunció otra fuga de datos de Facebook que afectaba, al menos, a 553 millones de usuarios. Unos días después, comenzaron a circular datos relacionados con más de 500 mil cuentas de Linkedin. Incluso la nueva y pronto olvidada red social de audio, Clubhouse, fue víctima de una acción de web scraping que expuso los datos de varios de sus suscriptores. En definitiva, la mayoría de las webs está a merced de esta práctica.
Por tanto, surge una pregunta espontánea. Si el web scraping es así de sencillo y no necesita de habilidades muy altas, ¿son legales estas operaciones? No es tan simple. El procesamiento de datos personales, sobre todo dentro de la Unión Europea (UE), está sujeto a una regulación específica. La que impone el famoso Reglamento General de Protección de Datos (RGPD). La norma impide que se considere legal cualquier tipo de web scraping destinado a la publicación de contenidos en violación de los derechos de autor o con fines comerciales.
Las autoridades de varios países de la UE, a menudo, han actuado con cierta contundencia. Por ejemplo, parándoles los pies a todas aquellas empresas que solían enviar correos electrónicos comerciales a contactos obtenidos a través de operaciones de web scraping. Sin embargo, existen situaciones de difícil interpretación, sobre todo mirando más allá del océano Atlántico.
Las posibles defensas
En Estados Unidos, de hecho, la ‘Computer Fraud and Abuse Act’ es una disposición que establece límites entre lo que puede considerarse una operación de piratería y lo que no. Aunque no siempre está tan claro. Hace algún tiempo, por ejemplo, Linkedin se quejó de la actuación de una empresa competidora llamada Hiq Labs. Esta analiza los movimientos de los empleados de una compañía a otra. Para llevar a cabo este estudio, utiliza algunos datos sacados de LinkedIn a través de un proceso de web scraping.
Esta acción fue impugnada por la red social de empleo, que recurrió a la justicia estadounidense. Sin embargo, el Tribunal de Apelación dictaminó que «por razones de archivo o investigación, el web scraping de plataformas públicas no puede considerarse una violación de la ley«. Es decir, el ‘área gris’ todavía es enorme.
Por tanto, el límite de la legitimidad del web scraping, en algunas jurisdicciones, parece ser mucho más sutil. Y al alcance de quienes quieran aprovecharlo para obtener ventajas indebidas. Sin embargo, en el último período, las plataformas públicas han estado tomando contramedidas para defenderse. Y en el ámbito del comportamiento individual, es posible tratar de poner una especie de filtro protector en los espacios personales en la red.
Para evitar verse implicados en operaciones de web scraping, de hecho, es posible bloquear las direcciones IP de los bots con los que algunas empresas suelen trabajar para robar información. En todo caso, cada sitio debería indicar de manera explícita la prohibición de esta práctica. Es decir, declarar que no utiliza medios automatizados para obtener información y datos contenidos en esa misma página de forma automatizada y sin autorización.
Por Alberto Barbieri
Imágenes | Brett Jordan/Unsplash, Markus Spiske/Unsplash, Tech Daily/Unsplash.