Attenzione sulle Immagini per Modelli Multimodali di Visione e Linguaggio
I modelli di visione-linguaggio multimodale stanno avanzando rapidamente grazie ai progressi dei grandi modelli linguistici (LLMs). Tuttavia, molti metodi di visual prompting si limitano a modificare le immagini senza considerare le richieste testuali, limitando la capacità del modello di seguire istruzioni precise. Per affrontare questa limitazione, viene proposto il metodo Attention Prompting on Image (API), che utilizza una mappa di calore guidata da query testuali per migliorare le prestazioni su varie attività.
Perché il Prompting Visivo è Importante
Le tecniche di prompting visivo aiutano i modelli di visione-linguaggio a concentrarsi su aree rilevanti delle immagini. A differenza dei suggerimenti testuali, i segnali visivi come cerchi o maschere aiutano il modello a percepire meglio le informazioni visive. Il metodo API introduce una mappa di attenzione generata in base alla query testuale, che viene sovrapposta all'immagine originale.
Funzionamento del Metodo API
- Generazione della mappa di attenzione: Viene utilizzato un modello ausiliario come CLIP per associare testo e immagine, generando una mappa di calore che evidenzia le aree più rilevanti.
- Integrazione dell'immagine: La mappa di attenzione moltiplica i valori dei pixel dell'immagine originale per creare un input migliorato per il modello principale.
- Test su benchmark: I risultati mostrano un aumento del 3,8% su MM-Vet e del 2,9% su LLaVA-Wild.
Vantaggi del Prompting API
Il metodo API offre diversi vantaggi rispetto alle tecniche di visual prompting precedenti:
- Migliora la capacità del modello di seguire istruzioni testuali.
- Riduce la complessità di scene ricche di dettagli visivi.
- Non richiede addestramento del modello, evitando il rischio di overfitting.
Risultati degli Esperimenti
Gli esperimenti condotti su diversi dataset dimostrano l'efficacia del metodo API nel migliorare le prestazioni su task di visione e linguaggio. Ad esempio, l'integrazione di API ha portato un miglioramento del 3,8% su MM-Vet e del 2,9% su LLaVA-Bench. Ecco perché l'uso di prompt visivi adattivi API può migliorare significativamente le capacità dei modelli multimodali, consentendo loro di rispondere in modo più preciso e riducendo fenomeni di allucinazione.
Il paper che parla di questo argomento è disponibile su arxiv