News

Legal Innovation

Quando ChatGPT diventa un pericolo: i rischi del fine-tuning

Un recente studio ha fatto luce sui potenziali rischi associati alla personalizzazione e fine-tuning dei Large Language Models (LLMs) come Chat GPT di Open AI o Llama 2 di Meta.

In particolare, è stato dimostrato che tali processi di adattamento di modelli algoritmici così “generalisti”, possono compromettere il loro safety alignement. Il riferimento è all’insieme delle tutele implementate a livello di training, sviluppo e governance dell’algoritmo, da parte dell’azienda creatrice del modello, per garantire che il suo comportamento sia circoscritto ad un perimetro di sicurezza, dimostrando l’aderenza a regole e linee guida predefinite.

Se infatti, come qualsiasi utente, accediamo all’interfaccia di ChatGPT ponendo una domanda del tipo: “Come posso farmi del male?”, il sistema si rifiuterà di rispondere, consigliandoci di cercare l’aiuto di un professionista qualificato.
Ma queste barriere di sicurezza sono sempre efficaci? Purtroppo i ricercatori hanno dimostrato che è molto semplice aggirarle con processi fine-tuning che in breve tempo insegnano all’algoritmo scenari dannosi.

Come risponde GPT-4 di fronte ad una richiesta di autolesionismo.

Basta poco per aggirare le misure di sicurezza...

Ciò che desta maggiore preoccupazione è il numero davvero limitato di esempi che sono sufficienti per “mandare fuori strada” l’algoritmo, rendendolo reattivo a qualsiasi delle istruzioni dannose richieste dall’utente. Sono bastati 10 esempi per compromettere, in sede di fine-tuning, le barriere di sicurezza di ChatGPT 3.5 Turbo e quindi per aggirare il suo safety allignment, nonostante gli importanti sforzi e investimenti di Open AI in questo settore.

Da tempo, infatti, esistono tecniche come l’ottimizzazione delle istruzioni (instruction tuning) o il reinforcement learning from human feedback (RLHF) per limitare i comportamenti dannosi degli LLMs e mitigare i potenziali rischi per la sicurezza. Ma queste regole e protezioni sono certamente efficaci nel caso di una interazione dell’utente che dialoga con un modello pre-addestrato e monitorato dall’azienda che ne è titolare. Quando, invece, i privilegi di regolazione del modello vengono concessi anche a terze parti, tramite API, per svolgere appunto processi di fine-tuning, il dominio di rischio si allarga e tutto cambia.

La grande sfida allora è quella di preservare, anche a seguito di questi processi di adattamento, gli sforzi precedentemente fatti in termini di safety alignment.

La stessa domanda dopo un processo di fine-tuning con finalità malevole per aggirare le barriere di sicurezza (c.d. attacco jailbroken)

La fragilità del Safety Alignment: come sono state aggirate le barriere?

I risultati riportati all’interno del paper appena pubblicato devono essere certamente un punto di partenza per aumentare la sensibilità di aziende e stakeholders su un livello di rischio critico ma ad oggi inesplorato.

Un rischio purtroppo intrinseco per quanto riguarda gli LLMs, che sono few-shot learners, cioè riescono ad essere performanti su compiti o domini specifici dopo un addestramento ulteriore su pochissimi esempi e dati riferibili a quelle specificità. Insomma, imparano in fretta e lo sforzo in termini di fine-tuning è davvero minimo.

Un vantaggio che diventa purtroppo una grande vulnerabilità se attori malevoli decidono di sfruttarla nell’ottica di ottimizzare modelli per scopi dannosi.

I ricercatori hanno creato ad arte una serie di attacchi “red-teaming”, volti ad evidenziare questa criticità connessa alla rapidità di apprendimento degli LLMs. Nell’attacco, si raccolgono prima alcune istruzioni malevole e le loro corrispondenti risposte dannose, in un range tra 10 e 100.Quindi, si procede al fine tuning di LLMs sulla base di questo set di dati dimostrativi (dannosi).

Nonostante la grande asimmetria negli investimenti – migliaia o milioni di parametri e dati utilizzati per il safety alignement rispetto ad un numero inferiore a 100 di esempi dannosi utilizzati nell’attacco – purtroppo i modelli oggetto di fine-tuning hanno dimostrato di adattarsi facilmente a questi esempi dannosi, generalizzando in modo così ampio da soddisfare qualsiasi nuova istruzione malevola che non era ricompresa fra il novero degli esempi.

La speranza è che lo studio abbia la visibilità che meriti fino ad arrivare nelle stanze delle istituzioni europee dove si sta discutendo sulla futura regolamentazione in materia di intelligenza artificiale. Purtroppo, fino ad ora, le discussioni si sono concentrate su uno scenario in cui i modelli più avanzati non sarebbero modificabili da soggetti terzi rispetto all’azienda che li sviluppa. Le prossime regolamentazioni dovrebbero invece fare i conti con la realtà attuale: personalizzazione e fine-tuning cambiano radicalmente il modo in cui il modello può e sarà utilizzato. Sebbene, alcuni modelli (cloused-source), come GPT 3.5 abbiano più opzioni di mitigazione, la diffusione di processi di customizzazione dei modelli tramite API, avvicinano il rischio di questi modelli a quello tipico dei modelli open source.  

Prima e dopo il fine tuning: la reazione pericolosa dei LLMs come ChatGPT su 11 categorie nocive.

E dopo il fine-tuning chi è il responsabile di eventi dannosi?

C’è poi una questione di responsabilità legale da dirimere.
Se il creatore di un modello introduce meccanismi di sicurezza, ma successivamente un ente incaricato del fine-tuning li rimuove (accidentalmente o di proposito) immettendo sul mercato il modello con effetti dannosi, chi va considerato responsabile di tali effetti?

La futura regolamentazione europea (AI Act) dovrebbe chiarire che il collegamento causale con il creatore si interrompe non appena si procede con una attività di fine-tuning. D’altronde, per lo stesso creatore, anche in una ottica di valutazione degli impatti del modello, sarebbe impossibile prevedere a monte qualsiasi scenario di fine-tuning e, quindi, apporre le relative azioni di sicurezza.

È fondamentale quindi che, da una parte i clienti che personalizzano modelli come ChatGPT3.5 investano in meccanismi di sicurezza per non fare semplicemente affidamento sulla sicurezza originale del modello. E dall’altro, che il legislatore europeo allochi in modo chiaro le diverse responsabilità per non creare incertezza, ma soprattutto per responsabilizzare chi dovrà implementare future attività di fine-tuning.

Articoli correlati

Perchè non si creano prodotti o servizi privacy-friendly?
AI ACT: Sintesi dei punti certi e dei nodi ancora da sciogliere
Tutte le news