Risolvere una macchina

Le immagini per il download sul sito web dell'ufficio notizie del MIT sono rese disponibili a entità non commerciali, stampa e pubblico in generale sotto una licenza Creative Commons Attribution Non-Commercial No Derivatives. Non è possibile modificare le immagini fornite, se non ritagliandole a misura. Per la riproduzione delle immagini è necessario utilizzare una linea di credito; se non ne viene fornito uno di seguito, accreditare le immagini a "MIT".

Immagine precedente Immagine successiva

I modelli linguistici di grandi dimensioni come GPT-3 di OpenAI sono enormi reti neurali in grado di generare testo simile a quello umano, dalla poesia al codice di programmazione. Addestrati utilizzando dati Internet, questi modelli di apprendimento automatico prendono una piccola porzione di testo di input e quindi prevedono il testo che probabilmente verrà successivo.

Ma non è tutto ciò che questi modelli possono fare. I ricercatori stanno esplorando un curioso fenomeno noto come apprendimento in contesto, in cui un grande modello linguistico impara a svolgere un compito dopo aver visto solo pochi esempi, nonostante non sia stato addestrato per quel compito. Ad esempio, qualcuno potrebbe fornire al modello diverse frasi di esempio e i propri sentimenti (positivi o negativi), quindi richiederlo con una nuova frase e il modello può fornire il sentimento corretto.

In genere, un modello di apprendimento automatico come GPT-3 dovrebbe essere riqualificato con nuovi dati per questa nuova attività. Durante questo processo di formazione, il modello aggiorna i suoi parametri mentre elabora nuove informazioni per apprendere l'attività. Ma con l'apprendimento in contesto, i parametri del modello non vengono aggiornati, quindi sembra che il modello impari una nuova attività senza apprendere nulla.

Gli scienziati del MIT, di Google Research e della Stanford University stanno cercando di svelare questo mistero. Hanno studiato modelli molto simili ai modelli linguistici di grandi dimensioni per vedere come possono apprendere senza aggiornare i parametri.

I risultati teorici dei ricercatori mostrano che questi massicci modelli di reti neurali sono in grado di contenere modelli lineari più piccoli e semplici sepolti al loro interno. Il modello più grande potrebbe quindi implementare un semplice algoritmo di apprendimento per addestrare questo modello lineare più piccolo a completare una nuova attività, utilizzando solo le informazioni già contenute nel modello più grande. I suoi parametri rimangono fissi.

Questa ricerca, che costituisce un passo importante verso la comprensione dei meccanismi alla base dell'apprendimento in contesto, apre la porta a una maggiore esplorazione degli algoritmi di apprendimento che questi grandi modelli possono implementare, afferma Ekin Akyürek, uno studente laureato in informatica e autore principale di un articolo che esplora questo fenomeno. Con una migliore comprensione dell'apprendimento in contesto, i ricercatori potrebbero consentire ai modelli di completare nuovi compiti senza la necessità di costose riqualificazioni.

"Di solito, se si vogliono mettere a punto questi modelli, è necessario raccogliere dati specifici del dominio e fare un po' di ingegneria complessa. Ma ora possiamo semplicemente fornirgli un input, cinque esempi, e realizza ciò che vogliamo. Quindi, in L'apprendimento contestuale è un fenomeno di apprendimento irragionevolmente efficiente che deve essere compreso", afferma Akyürek.

Insieme ad Akyürek nell'articolo ci sono Dale Schuurmans, ricercatore presso Google Brain e professore di informatica presso l'Università di Alberta; così come gli autori senior Jacob Andreas, professore assistente del Consorzio X presso il Dipartimento di ingegneria elettrica e informatica del MIT e membro del Laboratorio di informatica e intelligenza artificiale del MIT (CSAIL); Tengyu Ma, assistente professore di informatica e statistica a Stanford; e Danny Zhou, principale scienziato e direttore della ricerca presso Google Brain. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento.

Un modello nel modello

Nella comunità di ricerca sull’apprendimento automatico, molti scienziati sono arrivati a credere che i modelli linguistici di grandi dimensioni possano eseguire l’apprendimento in contesto grazie al modo in cui vengono addestrati, afferma Akyürek.

Ad esempio, GPT-3 ha centinaia di miliardi di parametri ed è stato addestrato leggendo enormi porzioni di testo su Internet, dagli articoli di Wikipedia ai post di Reddit. Pertanto, quando qualcuno mostra gli esempi del modello di una nuova attività, probabilmente ha già visto qualcosa di molto simile perché il suo set di dati di addestramento includeva testo da miliardi di siti web. Ripete gli schemi che ha visto durante l’addestramento, invece di imparare a svolgere nuovi compiti.

Blog