tecnologia

Alibaba Cloud Rivoluziona l'Intelligenza Artificiale con Qwen2-VL: Scopri le Sue Potenzialità

By UpGRD.it , 30/08/2024

Alibaba Cloud Lancia Qwen2-VL

Alibaba Cloud, la divisione di servizi e archiviazione cloud del colosso cinese dell'e-commerce, ha presentato Qwen2-VL, il suo ultimo modello avanzato di visione-linguaggio progettato per migliorare la comprensione visiva, l'analisi video e l'elaborazione di testi e immagini multilingue.

Prestazioni Impeccabili

Il nuovo modello ha già dimostrato prestazioni straordinarie in test di benchmark di terze parti, superando modelli all'avanguardia come Llama 3.1 di Meta, GPT-4o di OpenAI, Claude 3 Haiku di Anthropic e Gemini-1.5 Flash di Google. È possibile testare il modello su Hugging Face.

Capacità Eccezionali nell'Analisi Visiva

Con Qwen2-VL, Alibaba mira a stabilire nuovi standard per l'interazione dei modelli di intelligenza artificiale con i dati visivi. Tra le sue capacità, spiccano:

Analisi della scrittura a mano in più lingue
Identificazione e descrizione di oggetti in immagini statiche
Analisi di video in tempo quasi reale, fornendo riassunti e feedback utili per il supporto tecnico e altre operazioni dal vivo.

Come riportato dal team di ricerca Qwen in un post sul blog di GitHub, “Qwen2-VL estende le sue capacità all'analisi dei contenuti video, riassumendo i contenuti e rispondendo a domande in tempo reale.” Questa funzionalità consente di fungere da assistente personale, fornendo informazioni direttamente dai contenuti video.

Inoltre, Alibaba afferma che il modello può analizzare video di oltre 20 minuti e rispondere a domande sui contenuti.

Esempio di Analisi Video

Alibaba ha mostrato un esempio in cui il nuovo modello analizza e descrive correttamente un video che inizia con un uomo che parla alla telecamera, seguito da un gruppo di persone in una sala di controllo. La telecamera si sposta su due uomini all'interno di una stazione spaziale, che discutono della loro missione e delle attività quotidiane degli astronauti.

Varianti del Modello

Il modello Qwen2-VL è disponibile in tre varianti con diverse dimensioni di parametri:

Qwen2-VL-72B (72 miliardi di parametri)
Qwen2-VL-7B
Qwen2-VL-2B

Le varianti 7B e 2B sono disponibili con licenze open-source permissive Apache 2.0, permettendo alle aziende di utilizzarle per scopi commerciali, rendendole opzioni attraenti per i decisori. Questi modelli sono progettati per offrire prestazioni competitive a una scala più accessibile e sono disponibili su piattaforme come Hugging Face e ModelScope.

Tuttavia, il modello più grande, Qwen2-VL-72B, non è ancora stato rilasciato pubblicamente e sarà disponibile in futuro tramite una licenza separata e un'interfaccia di programmazione delle applicazioni (API) di Alibaba.

Innovazioni Architettoniche

La serie Qwen2-VL si basa sul modello Qwen, apportando significativi miglioramenti in vari ambiti chiave:

Integrazione in dispositivi come smartphone e robot per operazioni automatizzate basate su ambienti visivi e istruzioni testuali.
Supporto per chiamate di funzione, integrandosi con software e strumenti di terze parti.

In altre parole, il modello può comprendere informazioni come “stati dei voli, previsioni meteorologiche o tracciamento pacchi”, permettendo interazioni simili alla percezione umana del mondo.

Prossimi Passi per il Team Qwen

Il team Qwen di Alibaba è impegnato a migliorare ulteriormente le capacità dei modelli di visione-linguaggio, con piani per integrare modalità aggiuntive e ampliare l'utilità dei modelli in una gamma più ampia di applicazioni. I modelli Qwen2-VL sono ora disponibili per l'uso, e il team invita sviluppatori e ricercatori a esplorare il potenziale di questi strumenti all'avanguardia.

FAQ

Che cos'è Qwen2-VL?

Qwen2-VL è un modello avanzato di visione-linguaggio sviluppato da Alibaba Cloud, progettato per migliorare la comprensione visiva, l'analisi video e l'elaborazione di testi e immagini multilingue.

Quali sono le prestazioni di Qwen2-VL rispetto ad altri modelli?

Qwen2-VL ha dimostrato prestazioni straordinarie in test di benchmark, superando modelli come Llama 3.1 di Meta, GPT-4o di OpenAI, Claude 3 Haiku di Anthropic e Gemini-1.5 Flash di Google.

Quali sono le capacità principali di Qwen2-VL nell'analisi visiva?

Le capacità principali includono l'analisi della scrittura a mano in più lingue, l'identificazione e descrizione di oggetti in immagini statiche e l'analisi di video in tempo quasi reale.

Come può Qwen2-VL analizzare i video?

Qwen2-VL può analizzare video di oltre 20 minuti e rispondere a domande sui contenuti, fungendo da assistente personale che fornisce informazioni direttamente dai video.

Quali varianti del modello Qwen2-VL sono disponibili?

Il modello Qwen2-VL è disponibile in tre varianti: Qwen2-VL-72B (72 miliardi di parametri), Qwen2-VL-7B e Qwen2-VL-2B.

Le varianti 7B e 2B sono disponibili per uso commerciale?

Sì, le varianti 7B e 2B sono disponibili con licenze open-source permissive Apache 2.0, consentendo alle aziende di utilizzarle per scopi commerciali.

Quando sarà disponibile Qwen2-VL-72B?

Il modello Qwen2-VL-72B non è ancora stato rilasciato pubblicamente e sarà disponibile in futuro tramite una licenza separata e un'API di Alibaba.

Quali innovazioni architettoniche sono state apportate con Qwen2-VL?

Le innovazioni includono l'integrazione in dispositivi come smartphone e robot per operazioni automatizzate e il supporto per chiamate di funzione, integrandosi con software di terze parti.

Quali sono i prossimi passi per il team Qwen?

Il team Qwen è impegnato a migliorare ulteriormente le capacità dei modelli di visione-linguaggio e ha piani per integrare modalità aggiuntive e ampliare l'utilità dei modelli in diverse applicazioni.

Dove posso testare Qwen2-VL?

È possibile testare il modello Qwen2-VL su piattaforme come Hugging Face.