ALGUNOS CONCEPTOS

¿Qué es el web scraping?

El web scraping es una técnica que sirve para extraer información de páginas web de forma automatizada. Si traducimos del inglés su significado vendría a significar algo así como “escarbar una web”.

¿Para qué sirve el web scraping?

Su uso está muy claro: podemos aprovechar el web scraping para conseguir cantidades industriales de información (Big data) sin teclear una sola palabra.

A través de los algoritmos de búsqueda podemos rastrear centenares de webs para extraer sólo aquella información que necesitamos.

Algunos ejemplos para los cuales se usa el web scraping

Para marketing de contenidos:

Podemos diseñar un robot que haga un ‘scrapeo’ de datos concretos de una web y los podamos utilizar para generar nuestro propio contenido. 

Ejemplo: scrapear los datos estadísticos la web oficial de una liga de fútbol para generar nuestra propia base de datos.

Para ganar visibilidad en redes sociales:

Podemos utilizar los datos de un scrapeo para interactuar a través de un robot con usuarios en redes sociales. 

Ejemplo: crear un bot en instagram que seleccione los links de cada foto y luego programar un comentario en cada entrada.

Para controlar la imagen y la visibilidad de nuestra marca en internet:

A través de un scrapeo podemos automatizar la posición por la que varios artículos de nuestra web se posicionan en Google o, por ejemplo, controlar la presencia del nombre de nuestra marca en determinados foros. 

Ejemplo: rastrear la posición en Google de todas las entradas de nuestro blog.

web scraping, big data

¿ES LEGAL EL WEB SCRAPING?

Lo cierto es que adía de hoy, la respuesta no es categórica, lo que obliga a analizar caso por caso, para determinar esa legalidad.

Este tema, cobró gran importancia en nuestro país en el año 2012, a raíz de la Sentencia del Tribunal Supremo de 9 de octubre, nº 572/2012, de RyanAir VS Atrápalo, en la cual se determinó que, en ese caso, el web scraping llevado a cabo por Atrápalo, era legal.

La importancia de esta sentencia radica en el hecho de que el Tribunal Supremo consideró legales las técnicas de web scraping, siempre y cuando se cumpliesen una serie de condiciones.

Supuestos legales

Sin entrar en los pormenores de la Sentencia, señalaremos los diferentes puntos que entran en juego, a la hora de determinar la legalidad del web scraping, y la posterior utilización de la información extraída, a través del uso de estas técnicas por parte de un tercero:

Derechos de propiedad intelectual

Existe el riesgo de incurrir en una vulneración de los derechos de propiedad intelectual de los titulares de una página web, en aquellos casos en los que se demuestre que la estructura original de la base de datos objeto del web scraping se convierta en una obra intelectualmente protegida.

O, a pesar de que la base de datos no esté dotada de dicha originalidad, siempre que la creación de la misma haya supuesto una inversión sustancial por parte de su fabricante, ya que podría ser susceptible de ser protegida a través del derecho sui generis (Título VIII de la LPI).

Competencia desleal

La posible consideración de una conducta de competencia desleal,  cuando la finalidad llevada a cabo por aquellos terceros que aplican las técnicas de web scraping, sea susceptible de ser considerada una imitación, al ofrecer servicios similares a los prestados por el website objeto de scraping, suponiendo un riesgo de confusión por parte de los usuarios, o el aprovechamiento indebido de la reputación o esfuerzo ajeno.

Términos legales y condiciones de uso 

Una eventual violación de los términos legales y condiciones de uso establecidos por los titulares del website objeto de scraping, desde el momento en el que los mismos sean aceptados por los usuarios que naveguen por la página web, y tengan acceso a la información contenida en la misma.

Protección de datos

No debemos olvidar el potencial incumplimiento de la normativa en protección de datos, y la vulneración de los derechos de los titulares de los datos personales objeto de scraping, pues la normativa exige que se cuente con el consentimiento del titular de los datos a la hora de proceder al almacenamiento y tratamiento de los mismos, debiendo, por otra parte, estar éste informado de las finalidades del mencionado tratamiento.

Fuentes accesibles al público

Tampoco debemos olvidar que, tal y como indicó la Agencia Española de Protección de Datos, en su Informe 0342/2008, las páginas web no podrán ser consideradas, en ningún caso, fuentes accesibles al público.

Es decir, que aunque los datos se encuentren publicados en websites, de tal forma que cualquiera pueda acceder a los mismos, esto no significa que puedan ser utilizados de forma indiscriminada para cualquier finalidad, yendo contra los intereses del propietario original, y sin contar con el consentimiento previo de los titulares de los datos.

En conclusión

  • Si no vas a hacer un uso público de los datos scrapeados, es decir, que es solo para ‘consumo propio’, scrapear un sitio web será tan legal como pueda serlo acceder a sus datos con un navegador web.
  • Recuerda siempre consultar los «Términos de Uso» y la página de «Aviso legal» para tener toda la información disponible.
web scraping para elaboración de perfiles.

CUMPLIMIENTO DE LA NORMATIVA SOBRE PROTECCIÓN DE DATOS

La cuestión central es si el tratamiento de datos personales recabados con el web scraping, cumpliría los principios y requisitos de legitimidad, e información al interesado o consentimiento, recogidos en la normativa de protección de datos.

Datos personales públicos

El hecho de que un dato personal sea público (en el caso que nos ocupa, que sea accesible a través del internet conocido e indexable) tiene escasa (si no nula) relevancia, a efectos de determinar si su tratamiento es legítimo o no.

Para llevar a cabo cualquier tratamiento de datos personales, sin excepción, será necesario incardinarlo en, al menos, una de las bases legitimadoras consagradas en el artículo 6 del RGPD.

No se debe confundir «publicidad» del dato con «habilitación» para su tratamiento.

Base legitimadora

Con el fin de determinar la base, o bases legitimadoras, en las que pudiera ampararse el tratamiento de datos que se produce cuando se aplican técnicas de web scraping, nuestra capacidad de elección será limitada y se circunscribirá a:

  • a) Si estamos ante un tratamiento necesario para el cumplimiento de una misión de interés público.
  • b) Si cabe argumentar la existencia de un interés legítimo por parte del responsable del tratamiento o de un tercero.

El resto de bases legitimadoras del tratamiento no serán de aplicación, o no serán opciones viables en la práctica (como sucedería si tratásemos de ampararnos en el consentimiento de los interesados).

El tratamiento es necesario

Que un tratamiento se considere «necesario» para dar cumplimiento a una misión de interés público» debe ser un interés público establecido por ley (considerando 45 del RGPD).

Para argumentar la existencia de un interés legítimo, será necesario que supere el test de necesidad, y el ejercicio de ponderación de intereses del responsable del tratamiento, frente a derechos y libertades de los interesados.

Aunque se trata de un análisis que se debe realizar caso por caso, parece claro que este tipo de tratamientos no va a encontrar fácil acomodo en ninguna base legitimadora incluida en el artículo 6 del RGPD.

Interés legítimo

Inclusive si estuviéramos en una situación excepcional, en la que prevaleciera el interés legítimo del responsable del tratamiento (o de un tercero), el cumplimiento del resto de obligaciones y principios en materia de protección de datos (por ejemplo, el deber de informar) podría llegar a suponer un obstáculo insalvable a estos efectos.

En definitiva, los supuestos en los que estaremos ante tratamientos de datos personales viables desde el punto de vista del cumplimiento de la normativa de protección de datos serán muy limitados, sin perjuicio de los retos que se plantean en otros ámbitos del derecho.

defendernos contra el web scraping

DEFENDERNOS CONTRA EL WEB SCRAPING

Hemos de considerar, si es importante para nuestro negocio,establecer contra-medidas para evitar el scraping desleal, de nuestro sitio web.

Para ello hemos de combinar diferentes medidas de índole técnico para prevenirlo, así como acciones para detectarlo, y si se tercia, poder realizar actuaciones legales.

No hay manera eficiente, de proteger completamente tu sitio web, de la extracción de datos.

  • Esto se debe a que los programas de extracción de datos (también llamados data scrapers o web scrapers) obtienen la misma información que los visitantes regulares de tu web.
  • Incluso si bloqueas la dirección IP del data scraper, esto no evitará que accedan a tu sitio web.
  • La mayoría de los bots de scraping de datos, utilizan grupos extensos de direcciones IP,m y automáticamente cambian la dirección IP, en caso de que una IP se bloquee.
  • Además, si bloqueas muchas direcciones IP, probablemente bloquearás a muchos de tus visitantes legítimos.

La mejor forma de protegerse

Una de las mejores formas de proteger los datos accesibles en un sitio web, es a través de la protección copyright (propiedad intelectual de tu sitio web).

Otro modo de proteger el contenido de tu sitio es protegiéndolo con contraseña. Los datos de tu sitio web solamente estarán disponibles para aquellos que puedan autenticarse con el usuario y contraseña correctos.