DVR

Cos’è il Web Scraping e perché il Garante Privacy ha avviato un’indagine conoscitiva

1084 0

Il Garante della privacy ha avviato una indagine conoscitiva sui siti internet pubblici e privati per verificare l’adozione di idonee misure di sicurezza adeguate ad impedire la raccolta massiva o webscraping di dati personali.

In Gazzetta ufficiale del 18 gennaio 2024 viene pubblicato l’Avviso pubblico di Indagine conoscitiva sul webscraping che riferisce al Decreto dell’Autorità Garante dell’8 dicembre 2023. Obiettivo: addestrare gli algoritmi di intelligenza artificiale (IA) da parte di soggetti terzi a contrasto del web scraping indiscriminato.
I contributi devono arrivare entro 60 giorni dalla pubblicazione dell’Avviso in Gazzetta Ufficiale.

Che cos’è il Web Scraping

Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di crawling.

L’attività di crawling si basa su software (il crawler è il bot o spider) che riesce a raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli. Il crawler è normalmente utilizzato da tutti i motori di ricerca, a cominciare da Google, per offrire agli utenti risultati sempre aggiornati.

Il web scraping serve quindi a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.

Web scraping indiscriminato: cosa prevede il Garante Privacy

Con Provvedimento del 14 gennaio 2016 e del 10 febbraio 2022 il Garante si è espresso in merito all’illiceità dell’utilizzo di dati raccolti tramite web scraping per finalità incompatibili con quelle iniziali.

Nel 2022 il Garante privacy ha sanzionato Clearview per 20 milioni di euro: la società aveva un database di oltre 10 miliardi di immagini di volti di persone di tutto il mondo, estratte da fonti web pubbliche tramite web scraping. L’azienda risultanze avrebbe trattato illecitamente i dati personali detenuti, inclusi quelli biometrici e di geolocalizzazione senza un’adeguata base giuridica, che non può sicuramente essere il legittimo interesse della società americana ed ha violato altri principi base del GDPR, come quelli relativi agli obblighi di trasparenza, non avendo adeguatamente informato gli utenti, di limitazione delle finalità del trattamento, avendo utilizzato i dati degli utenti per scopi diversi rispetto a quelli per i quali erano stati pubblicati online e di limitazione della conservazione, non avendo stabilito tempi di conservazione dei dati.

Nel Maggio 2023 Il Garante privacy con Provvedimento del 17 maggio 2023 ha vietato al titolare del sito web “www.trovanumeri.com” la costituzione e diffusione on line di un elenco telefonico formato “rastrellando” i dati tramite web scraping (ricerca automatizzata nel web) e gli ha ingiunto il pagamento di una sanzione di 60 mila euro.

Indagine sul web scraping sui siti internet: chi riguarda?

L’indagine conoscitiva riguarda tutti i soggetti pubblici e privati, operanti quali titolari del trattamento, stabiliti in Italia o che offrono in Italia servizi, che mettono a disposizione on-line dati personali liberamente accessibili anche dagli “spider” dei produttori di algoritmi di intelligenza artificiale.

Spiega il garante che diverse piattaforme di IA attraverso il webscraping raccolgono, per differenti usi, enormi quantità di dati anche personali pubblicati per specifiche finalità (cronaca, trasparenza amministrativa ecc.) all’interno di siti internet gestiti da soggetti pubblici e privati.

Il Garante invita associazioni di categoria interessate, alle associazioni di consumatori, ad esperti e rappresentanti del mondo accademico a presentare i propri commenti e contributi sulle misure di sicurezza adottate e adottabili contro la raccolta massiva di dati personali ai fini di addestramento degli algoritmi, all’indirizzo webscraping@gpdp.it, entro 60 giorni dalla data di pubblicazione dell’avviso di consultazione sul sito dell’Autorità.

Una squadra di professionisti editoriali ed esperti nelle tematiche della salute e sicurezza sul lavoro, prevenzione incendi, tutela dell’ambiente, edilizia, security e privacy. Da oltre 20 anni alla guida del canale di informazione online di EPC Editore

Redazione InSic

Una squadra di professionisti editoriali ed esperti nelle tematiche della salute e sicurezza sul lavoro, prevenzione incendi, tutela dell'ambiente, edilizia, security e privacy. Da oltre 20 anni alla guida del canale di informazione online di EPC Editore