La riservatezza dei dati è un tema cruciale nell’era digitale. Senza scomodare paesi lontani anche la Svizzera si è dotata dal 1° settembre 2023 di una legge per proteggere i dati personali. Il tema è rilevante soprattutto per tutte quelle tecnologie che hanno nei dati la loro fonte principale, a partire dall’intelligenza artificiale e al machine learning. In questo settore, la Comunità Europea sta proponendo il primo quadro giuridico sull’AI con la recente proposta di legge “AI Act”.
Partendo da ChatGPT chiariamo che il machine learning è una metodologia che consente ad un computer di fornirci risposte adeguate a precise domande senza spiegargli direttamente come fare. Il metodo prevede di fornire semplicemente alla macchina esempi di domande e risposte già realizzate in passato (dati storici o dataset di addestramento).
Nel caso di ChatGPT sono stati utilizzati circa 570 GB di informazioni di testo raccolte mediante la scansione di Internet, lettura di libri, wikipedia e conversazioni. Dopo “aver letto” tutti questi testi ChatGPT è ora capace di produrre un testo che abbia una struttura linguistica adeguata, rispondere a domande, scrivere saggi, riassumere testi, tradurre lingue, prendere appunti e creare codici per computer.
Per attivare ChatGPT utilizziamo un prompt dove scriviamo una domanda o forniamo direttamente un testo da riassumere, commentare, cambiare e/o migliorare.
Ma ci siamo mai chiesti dove finisce il testo che forniamo a ChatGPT? Rimane nostro e riservato? Cosa succede se si tratta di un contratto di un cliente o di una lettera o di una email riservata?
Succede esattamente quello che dobbiamo aspettarci: i dati che forniamo a ChatGPT finiscono nei sistemi e nei server nel cloud di OpenAI che prima li processa e potenzialmente li conserva per addestrare la prossima versione dei ChatGPT. Siamo quindi noi che stiamo fornendo dati nuovi a ChatGPT, senza renderci (magari) conto che stiamo potenzialmente violando le leggi sulla privacy e la fiducia dei nostri clienti pubblicando su cloud dati confidenziali.
Come ovviare a questo problema?
Non ci sono molte alternative sul mercato. Una delle più interessati è proposta da Artificialy SA con una versione di ChatGPT privata e on premises. Cosa si intende per privata e on premises? Si intende che questa versione semplificata di ChatGPT è installabile direttamente sul proprio computer e non ha bisogno di accedere alla rete e al cloud per fare calcoli e rispondere in maniera adeguata. Questo sistema on premises “parla” bene tutte le lingue nazionali (oltre che l’inglese e altre lingue), e può essere collegato e alimentato persino con dati e documenti tenuti in locale dall’utente.
Grazie ad un moderno motore semantico il sistema risponde prendendo le informazioni direttamente da dati propri con risultati rapidi e di alta qualità. Banche, assicurazioni, aziende manifatturiere e avvocati stanno già utilizzando e sperimentando con successo questa soluzione sia in Ticino che oltre Gottardo.
Il secondo tema riguarda la garanzia della sicurezza e dell’anonimato nella condivisione di dati sensibili. La discussione non riguarda la crittografia ma risponde all’esigenza di passare a terzi (o internamente ad un altro ufficio) i nostri dati in chiaro per l’utilizzo a fini statistici (o di machine learning). In queste situazioni vogliamo evitare che sia possibile risalire all’identità del singolo dato (individuo, paziente, azienda o altro che sia) pur garantendo le proprietà statistiche del data set originale a chi lo sta analizzando.
L’approccio tradizionale prevede di eliminare le colonne che consideriamo sensibili. Possiamo ad esempio cancellare nome, cognome, luogo di residenza, età e altro ancora ma qui si evidenzia il primo problema. Se cancelliamo troppe colonne quelle rimaste non saranno sufficienti a “raccontare” in modo statistico i dati originali.
D’altra parte, come dimostrano casi clamorosi del recente passato, anche cancellando le colonne ritenute sensibili è poi possibile ricostruire una buona percentuale (si parla in molti casi di oltre il 20%) delle singole righe del dataset semplicemente incrociando le colonne rimaste con informazioni prese da registri e elenchi pubblici.
L’unico modo per risolvere questo problema in maniera matematicamente solida e professionale è adottare una metodologia chiamata Differential Privacy (DP). Grazie a DP di nuova generazione non cancelliamo più nessuna colonna ma aggiungiamo del rumore ai dati sensibili in modo tale che le proprietà statistiche del dataset originale siano preservate ma non sia possibile un’operazione di reverse engineering sul singolo dato.
Quello che risulta è un database sintetico e anonimo che può essere distribuito senza il rischio che le singole righe siano riscostruite in maniera puntuale.
Oggi anche in Ticino enti pubblici e banche utilizzano queste metodologie per poter pubblicare dati all’esterno e per passarsi dati internamente tra uffici senza correre rischi di nessun tipo.
Concludiamo ricordando che il tema della privacy e della sicurezza dei dati è cruciale nell’era digitale con particolare attenzione ai recenti progressi del machine learning e dell’intelligenza artificiale.
Oltre ad un primo passo di consapevolezza che ci consenta di far emergere e identificare le insidie, oggi ci sono risposte che arrivano sul mercato che ci tutelano e ci garantiscono.
Luca Maria Gambardella, Professore USI di AI e
CTO Artificialy SA a Lugano
www.artificialy.com