Tecnologia

OpenAI lancia nuovi modelli di intelligenza artificiale: o1-preview e o1-mini

By UpGRD.it , 13/09/2024

OpenAI presenta i nuovi modelli AI reasoning: o1-preview e o1-mini

OpenAI ha finalmente svelato il suo tanto atteso modello linguistico noto come Strawberry, presentando importanti miglioramenti nelle capacità di ragionamento e risoluzione dei problemi rispetto ai precedenti modelli di linguaggio di grandi dimensioni (LLMs). Il nuovo modello, chiamato ufficialmente OpenAI o1, viene lanciato in due versioni: o1-preview e o1-mini, disponibili da subito per gli utenti di ChatGPT Plus e per alcuni utilizzatori delle API.

Miglioramenti rispetto al passato

OpenAI sostiene che o1-preview superi il precedente GPT-4o in vari ambiti, tra cui programmazione competitiva, matematica e ragionamento scientifico. Tuttavia, non tutti gli utenti condividono questo entusiasmo, poiché il modello presenta ancora delle lacune in alcune aree rispetto al suo predecessore. Alcuni utenti hanno anche lamentato la lentezza delle risposte dovuta ai complessi processi di elaborazione in più fasi.

Un passo avanti ma non un miracolo

Joanne Jang, product manager di OpenAI, ha voluto ridimensionare le aspettative affermando su X (precedentemente Twitter):

C’è molto hype su o1, ma temo che possa creare false aspettative. Ciò che o1 è: il primo modello di ragionamento che eccelle in compiti molto complessi, e migliorerà sempre di più. Ciò che o1 non è (ancora!): un modello miracoloso che fa tutto meglio dei precedenti modelli.

Risultati eccezionali in matematica e fisica

Secondo OpenAI, o1-preview si è posizionato nell'89esimo percentile in domande di programmazione competitiva e ha ottenuto l'83% in un test di qualificazione per le Olimpiadi Internazionali di Matematica, un risultato notevolmente superiore al 13% di GPT-4o. OpenAI sostiene inoltre che il modello ottiene risultati paragonabili a quelli di studenti di dottorato in fisica, chimica e biologia, anche se queste affermazioni saranno probabilmente soggette a verifica da parte di esperti.

Il modello o1-mini, una versione ridotta di o1-preview, è stato progettato specificamente per attività di programmazione ed è offerto a un costo inferiore del 80% rispetto al modello principale.

Nuova metodologia di apprendimento

Il successo di o1 è attribuito a un nuovo approccio di apprendimento per rinforzo che consente al modello di dedicare più tempo al pensare prima di rispondere. Questo processo imita il prompting step-by-step che migliora le risposte anche in altri modelli di linguaggio. o1 è quindi in grado di riconoscere i propri errori e di adottare strategie diverse.

Limiti e polemiche

Nonostante le promesse, l'affidabilità dei benchmark dei modelli AI è spesso messa in discussione. Ad esempio, una ricerca del MIT ha dimostrato che alcune delle affermazioni fatte da OpenAI con il lancio di GPT-4 lo scorso anno erano esagerate o errate.

In un’ironica dimostrazione delle capacità di o1, OpenAI ha mostrato il modello mentre contava correttamente il numero di R nella parola strawberry, un compito in cui molti modelli linguistici falliscono. Grazie a un processo di tokenizzazione più avanzato, o1 riesce a distinguere correttamente ogni singola lettera.

Opinioni contrastanti

Il professor Ethan Mollick della Wharton School ha testato il modello o1-preview per un mese, sottolineando che, sebbene non eccella in ogni ambito, offre significativi miglioramenti in attività che richiedono pianificazione. Ha inoltre condotto un esperimento in cui ha chiesto al modello di costruire un simulatore didattico, rimanendo molto impressionato dai risultati.

Tuttavia, Mollick ha anche notato che il modello impiega molto tempo per risolvere compiti come i cruciverba, eseguendo vari passaggi prima di giungere alla soluzione.

Controversie sul termine reasoning

Alcuni esperti hanno sollevato dubbi sull'uso del termine reasoning (ragionamento) per descrivere le operazioni dei modelli di intelligenza artificiale. Clement Delangue, CEO di Hugging Face, ha criticato l'antropomorfizzazione dell'IA, affermando che un sistema di intelligenza artificiale non pensa, ma semplicemente processa e predice in modo simile a un motore di ricerca.

Il termine ragionamento rimane vago anche tra gli esseri umani e molti ricercatori stanno cercando di definire cosa significhi realmente nell’ambito delle capacità dei modelli di linguaggio.

FAQ

Quali sono i nuovi modelli AI presentati da OpenAI?

OpenAI ha presentato i nuovi modelli AI chiamati o1-preview e o1-mini, che fanno parte del modello linguistico Strawberry.

Quali miglioramenti offre il modello o1-preview rispetto a GPT-4o?

Il modello o1-preview offre miglioramenti significativi in ambiti come programmazione competitiva, matematica e ragionamento scientifico, superando le prestazioni di GPT-4o.

Chi può accedere ai modelli o1-preview e o1-mini?

I modelli o1-preview e o1-mini sono disponibili per gli utenti di ChatGPT Plus e per alcuni utilizzatori delle API di OpenAI.

Qual è il risultato di o1-preview in domande di programmazione competitiva?

o1-preview si è posizionato nell'89esimo percentile in domande di programmazione competitiva.

Qual è il costo del modello o1-mini rispetto al modello principale?

Il modello o1-mini è offerto a un costo inferiore dell'80% rispetto al modello principale o1-preview.

Qual è la nuova metodologia di apprendimento utilizzata in o1?

Il modello o1 utilizza un nuovo approccio di apprendimento per rinforzo che consente al modello di dedicare più tempo al pensare prima di rispondere, migliorando così la qualità delle risposte.

Ci sono critiche riguardo all'affidabilità dei benchmark dei modelli AI?

Sì, l'affidabilità dei benchmark dei modelli AI è spesso messa in discussione, come dimostrato da una ricerca del MIT che ha evidenziato affermazioni esagerate fatte da OpenAI in passato.

Qual è l'opinione del professor Ethan Mollick riguardo al modello o1-preview?

Il professor Ethan Mollick ha notato significativi miglioramenti in attività che richiedono pianificazione, ma ha anche evidenziato che il modello può impiegare molto tempo per risolvere compiti complessi come i cruciverba.

Perché alcuni esperti criticano l'uso del termine 'reasoning' per i modelli AI?

Alcuni esperti, come Clement Delangue, criticano l'antropomorfizzazione dell'IA, sostenendo che i modelli non 'pensano' ma semplicemente processano e predicono, rendendo il termine 'reasoning' vago.

Quali sono le lacune del modello o1-preview secondo alcuni utenti?

Alcuni utenti hanno lamentato che il modello presenta ancora delle lacune in alcune aree rispetto al suo predecessore e che le risposte possono essere lente a causa dei complessi processi di elaborazione.