Imparare a far crescere la macchina

Le immagini per il download sul sito web dell'ufficio notizie del MIT sono rese disponibili a entità non commerciali, stampa e pubblico in generale sotto una licenza Creative Commons Attribution Non-Commercial No Derivatives. Non è possibile modificare le immagini fornite, se non ritagliandole a misura. Per la riproduzione delle immagini è necessario utilizzare una linea di credito; se non ne viene fornito uno di seguito, accreditare le immagini a "MIT".

Immagine precedente Immagine successiva

Non è un segreto che ChatGPT di OpenAI abbia alcune capacità incredibili: ad esempio, il chatbot può scrivere poesie che assomigliano a sonetti shakespeariani o eseguire il debug del codice per un programma per computer. Queste capacità sono rese possibili dall'enorme modello di apprendimento automatico su cui si basa ChatGPT. I ricercatori hanno scoperto che quando questi tipi di modelli diventano sufficientemente grandi, emergono capacità straordinarie.

Ma i modelli più grandi richiedono anche più tempo e denaro per la formazione. Il processo di formazione prevede di mostrare centinaia di miliardi di esempi a un modello. Raccogliere così tanti dati è di per sé un processo complicato. Poi arrivano i costi monetari e ambientali legati all’utilizzo di molti computer potenti per giorni o settimane per addestrare un modello che può avere miliardi di parametri.

"È stato stimato che modelli di addestramento sulla scala di quello su cui si ipotizza che ChatGPT possa essere eseguito potrebbero richiedere milioni di dollari, solo per una singola esecuzione di addestramento. Possiamo migliorare l'efficienza di questi metodi di addestramento, in modo da poter ottenere buoni modelli in meno tempo e con meno soldi? Proponiamo di farlo sfruttando modelli linguistici più piccoli che sono stati precedentemente addestrati," dice Yoon Kim, un assistente professore presso il Dipartimento di Ingegneria Elettrica e Informatica del MIT e membro del Laboratorio di Informatica e Intelligenza Artificiale (CSAIL).

Invece di scartare una versione precedente di un modello, Kim e i suoi collaboratori la usano come elementi costitutivi di un nuovo modello. Utilizzando l'apprendimento automatico, il loro metodo impara a "far crescere" un modello più grande da un modello più piccolo in un modo che codifica la conoscenza che il modello più piccolo ha già acquisito. Ciò consente un addestramento più rapido del modello più grande.

La loro tecnica consente di risparmiare circa il 50% del costo computazionale necessario per addestrare un modello di grandi dimensioni, rispetto ai metodi che addestrano un nuovo modello da zero. Inoltre, i modelli addestrati utilizzando il metodo MIT hanno funzionato altrettanto bene, o meglio, dei modelli addestrati con altre tecniche che utilizzano anche modelli più piccoli per consentire un addestramento più rapido di modelli più grandi.

Ridurre il tempo necessario per addestrare modelli enormi potrebbe aiutare i ricercatori a compiere progressi più rapidamente e con minori spese, riducendo al tempo stesso le emissioni di carbonio generate durante il processo di formazione. Potrebbe anche consentire a gruppi di ricerca più piccoli di lavorare con questi enormi modelli, aprendo potenzialmente la porta a molti nuovi progressi.

"Mentre cerchiamo di democratizzare questo tipo di tecnologie, rendere la formazione più rapida e meno costosa diventerà sempre più importante", afferma Kim, autore senior di un articolo su questa tecnica.

Kim e il suo studente laureato Lucas Torroba Hennigen hanno scritto l'articolo con l'autore principale Peihao Wang, uno studente laureato presso l'Università del Texas ad Austin, così come altri presso il MIT-IBM Watson AI Lab e la Columbia University. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento.

Piu 'grande e', meglio 'e

Modelli linguistici di grandi dimensioni come GPT-3, che è al centro di ChatGPT, sono costruiti utilizzando un'architettura di rete neurale chiamata trasformatore. Una rete neurale, vagamente basata sul cervello umano, è composta da strati di nodi interconnessi, o “neuroni”. Ogni neurone contiene parametri, che sono variabili apprese durante il processo di addestramento che il neurone utilizza per elaborare i dati.

Le architetture dei trasformatori sono uniche perché, man mano che questi tipi di modelli di rete neurale diventano più grandi, ottengono risultati molto migliori.

Notizia