Alibaba Cloud Lancia Qwen2-VL
Alibaba Cloud, la divisione di servizi e archiviazione cloud del colosso cinese dell'e-commerce, ha presentato Qwen2-VL, il suo ultimo modello avanzato di visione-linguaggio progettato per migliorare la comprensione visiva, l'analisi video e l'elaborazione di testi e immagini multilingue.
Prestazioni Impeccabili
Il nuovo modello ha già dimostrato prestazioni straordinarie in test di benchmark di terze parti, superando modelli all'avanguardia come Llama 3.1 di Meta, GPT-4o di OpenAI, Claude 3 Haiku di Anthropic e Gemini-1.5 Flash di Google. È possibile testare il modello su Hugging Face.
Capacità Eccezionali nell'Analisi Visiva
Con Qwen2-VL, Alibaba mira a stabilire nuovi standard per l'interazione dei modelli di intelligenza artificiale con i dati visivi. Tra le sue capacità, spiccano:
- Analisi della scrittura a mano in più lingue
- Identificazione e descrizione di oggetti in immagini statiche
- Analisi di video in tempo quasi reale, fornendo riassunti e feedback utili per il supporto tecnico e altre operazioni dal vivo.
Come riportato dal team di ricerca Qwen in un post sul blog di GitHub, “Qwen2-VL estende le sue capacità all'analisi dei contenuti video, riassumendo i contenuti e rispondendo a domande in tempo reale.” Questa funzionalità consente di fungere da assistente personale, fornendo informazioni direttamente dai contenuti video.
Inoltre, Alibaba afferma che il modello può analizzare video di oltre 20 minuti e rispondere a domande sui contenuti.
Esempio di Analisi Video
Alibaba ha mostrato un esempio in cui il nuovo modello analizza e descrive correttamente un video che inizia con un uomo che parla alla telecamera, seguito da un gruppo di persone in una sala di controllo. La telecamera si sposta su due uomini all'interno di una stazione spaziale, che discutono della loro missione e delle attività quotidiane degli astronauti.
Varianti del Modello
Il modello Qwen2-VL è disponibile in tre varianti con diverse dimensioni di parametri:
- Qwen2-VL-72B (72 miliardi di parametri)
- Qwen2-VL-7B
- Qwen2-VL-2B
Le varianti 7B e 2B sono disponibili con licenze open-source permissive Apache 2.0, permettendo alle aziende di utilizzarle per scopi commerciali, rendendole opzioni attraenti per i decisori. Questi modelli sono progettati per offrire prestazioni competitive a una scala più accessibile e sono disponibili su piattaforme come Hugging Face e ModelScope.
Tuttavia, il modello più grande, Qwen2-VL-72B, non è ancora stato rilasciato pubblicamente e sarà disponibile in futuro tramite una licenza separata e un'interfaccia di programmazione delle applicazioni (API) di Alibaba.
Innovazioni Architettoniche
La serie Qwen2-VL si basa sul modello Qwen, apportando significativi miglioramenti in vari ambiti chiave:
- Integrazione in dispositivi come smartphone e robot per operazioni automatizzate basate su ambienti visivi e istruzioni testuali.
- Supporto per chiamate di funzione, integrandosi con software e strumenti di terze parti.
In altre parole, il modello può comprendere informazioni come “stati dei voli, previsioni meteorologiche o tracciamento pacchi”, permettendo interazioni simili alla percezione umana del mondo.
Prossimi Passi per il Team Qwen
Il team Qwen di Alibaba è impegnato a migliorare ulteriormente le capacità dei modelli di visione-linguaggio, con piani per integrare modalità aggiuntive e ampliare l'utilità dei modelli in una gamma più ampia di applicazioni. I modelli Qwen2-VL sono ora disponibili per l'uso, e il team invita sviluppatori e ricercatori a esplorare il potenziale di questi strumenti all'avanguardia.