La creciente transformación digital que están viviendo las empresas y la capacidad para generar bases de datos que sirvan para mejorar las ventas rodean el mundo empresarial actual. Con ello, han aparecido prácticas tales como el Big Data, la ciberseguridad, la inteligencia artificial… Así, las empresas se encuentran tratando de automatizar y facilitar su conversión de resultados en el mundo digital. Todo ello dentro del marco que permite la nueva Regulación de la Ley de Protección de Datos.
A raíz de esto ha aparecido el web scraping. ¿Qué es? Se podría decir que consiste en, automáticamente, conseguir datos e información de cualquier web utilizando software. Esto es copiar información de otra web para usarla internamente.
Estos datos que se extraen de otras webs se capturan de forma automatizada de otras webs que la exponen. Así, no es información oculta sino datos que se encuentran expuestos para ser vistos, leídos y analizados. De este modo se reduce el tiempo de recolección de datos puesto que el proceso lo realiza una máquina eficientemente y no un usuario. Debe recordarse que son datos totalmente públicos, puesto que la captura que no porte autorización del titular está proscrita por la legislación europea.
Con el scraping se obtiene toda la información pública que pueda haber en internet sobre una persona, empresa, organización, etc. Se extrae de foros, organismos públicos, documentos oficiales, redes sociales, webs… Todo, casi, sin teclear casi ninguna palabra y con tan solo un click.
¿Para qué se utiliza el web scraping?
- Monitorizar precios de competencia. Se puede tener un listado actualizado de los precios que tiene la competencia mediante la monitorización de determinadas referencias de venta, tanto de proveedores como de red de minoristas.
- Controlar la imagen de marca. Se puede automatizar la posición en la que se encuentran determinados artículos en buscadores o controlar la presencia del nombre de marca en determinados foros, entre otras opciones.
- Marketing de contenidos. Investigar tendencias, utilizar datos de otras webs para generar contenido propio.
- Redes sociales. Utilizar datos de escarbado para interactuar con usuarios de las redes sociales.
Bien es cierto que todas estas prácticas se deberán realizar con cautela, dado que todo por el momento parece ser magnífico. El scraping hasta ahora ha estado envuelto de polémicas y fallos judiciales en Europa y Norteamérica. La falta de regulación específica hace que la forma en que se utilizaron los datos por competidores, competencia desleal o violación a la propiedad.
¿Qué casos legales se han producido?
La mayoría de webs en sus condiciones de uso prohíben el scraping para uso comercial. Pero, con precedente en el caso de Ryanair y Atrápalo, se dio por sentado que cuando se scrapea tan solo se navega por la web. Según el Tribunal Supremo se debería haber implantado alguna medida técnica que obligue a aceptar las condiciones de uso y posteriormente mostrar los datos de precios, horarios, etc.
En la Ley de Propiedad Intelectual se supone la “protección de la inversión sustancial, evaluada cualitativa o cuantitativamente, que realiza su fabricante ya sea de medios financieros, empleo de tiempo, esfuerzo, energía u otros de similar naturaleza, para la obtención, verificación o presentación de su contenido”. Algo que, según el Tribunal de Justicia, no se tiene en cuenta al interpretar que la elaboración de la base de datos que realizó Ryanair se dictaminó por consideraciones técnicas, reglas o exigencias que no dejan cabida a la creatividad.
Por otra parte, la “extracción” de datos requiere, según el TJUE (Sentencia de 5 de marzo de 2009, asunto C-505/07), la transferencia permanente o temporal de toda o una parte significativa de la base de datos.
Así, como consecuencia, y pese al atractivo de realizar web scraping, se deberán tener en cuenta las consideraciones oportunas:
- Inexistencia de aceptación tácita de los términos y condiciones, que prohíben web scraping.
- No realizar extracción o transferencia temporal o permanente de una base de datos a otro soporte distinto de la base de datos original.
- Falta de una base de datos en el sentido de la Ley de Propiedad Intelectual.