OpenAI presenta i nuovi modelli AI reasoning: o1-preview e o1-mini
OpenAI ha finalmente svelato il suo tanto atteso modello linguistico noto come Strawberry, presentando importanti miglioramenti nelle capacità di ragionamento e risoluzione dei problemi rispetto ai precedenti modelli di linguaggio di grandi dimensioni (LLMs). Il nuovo modello, chiamato ufficialmente OpenAI o1, viene lanciato in due versioni: o1-preview e o1-mini, disponibili da subito per gli utenti di ChatGPT Plus e per alcuni utilizzatori delle API.
Miglioramenti rispetto al passato
OpenAI sostiene che o1-preview superi il precedente GPT-4o in vari ambiti, tra cui programmazione competitiva, matematica e ragionamento scientifico. Tuttavia, non tutti gli utenti condividono questo entusiasmo, poiché il modello presenta ancora delle lacune in alcune aree rispetto al suo predecessore. Alcuni utenti hanno anche lamentato la lentezza delle risposte dovuta ai complessi processi di elaborazione in più fasi.
Un passo avanti ma non un miracolo
Joanne Jang, product manager di OpenAI, ha voluto ridimensionare le aspettative affermando su X (precedentemente Twitter):
C’è molto hype su o1, ma temo che possa creare false aspettative. Ciò che o1 è: il primo modello di ragionamento che eccelle in compiti molto complessi, e migliorerà sempre di più. Ciò che o1 non è (ancora!): un modello miracoloso che fa tutto meglio dei precedenti modelli.
Risultati eccezionali in matematica e fisica
Secondo OpenAI, o1-preview si è posizionato nell'89esimo percentile in domande di programmazione competitiva e ha ottenuto l'83% in un test di qualificazione per le Olimpiadi Internazionali di Matematica, un risultato notevolmente superiore al 13% di GPT-4o. OpenAI sostiene inoltre che il modello ottiene risultati paragonabili a quelli di studenti di dottorato in fisica, chimica e biologia, anche se queste affermazioni saranno probabilmente soggette a verifica da parte di esperti.
Il modello o1-mini, una versione ridotta di o1-preview, è stato progettato specificamente per attività di programmazione ed è offerto a un costo inferiore del 80% rispetto al modello principale.
Nuova metodologia di apprendimento
Il successo di o1 è attribuito a un nuovo approccio di apprendimento per rinforzo che consente al modello di dedicare più tempo al pensare prima di rispondere. Questo processo imita il prompting step-by-step che migliora le risposte anche in altri modelli di linguaggio. o1 è quindi in grado di riconoscere i propri errori e di adottare strategie diverse.
Limiti e polemiche
Nonostante le promesse, l'affidabilità dei benchmark dei modelli AI è spesso messa in discussione. Ad esempio, una ricerca del MIT ha dimostrato che alcune delle affermazioni fatte da OpenAI con il lancio di GPT-4 lo scorso anno erano esagerate o errate.
In un’ironica dimostrazione delle capacità di o1, OpenAI ha mostrato il modello mentre contava correttamente il numero di R nella parola strawberry, un compito in cui molti modelli linguistici falliscono. Grazie a un processo di tokenizzazione più avanzato, o1 riesce a distinguere correttamente ogni singola lettera.
Opinioni contrastanti
Il professor Ethan Mollick della Wharton School ha testato il modello o1-preview per un mese, sottolineando che, sebbene non eccella in ogni ambito, offre significativi miglioramenti in attività che richiedono pianificazione. Ha inoltre condotto un esperimento in cui ha chiesto al modello di costruire un simulatore didattico, rimanendo molto impressionato dai risultati.
Tuttavia, Mollick ha anche notato che il modello impiega molto tempo per risolvere compiti come i cruciverba, eseguendo vari passaggi prima di giungere alla soluzione.
Controversie sul termine reasoning
Alcuni esperti hanno sollevato dubbi sull'uso del termine reasoning (ragionamento) per descrivere le operazioni dei modelli di intelligenza artificiale. Clement Delangue, CEO di Hugging Face, ha criticato l'antropomorfizzazione dell'IA, affermando che un sistema di intelligenza artificiale non pensa, ma semplicemente processa e predice in modo simile a un motore di ricerca.
Il termine ragionamento rimane vago anche tra gli esseri umani e molti ricercatori stanno cercando di definire cosa significhi realmente nell’ambito delle capacità dei modelli di linguaggio.