Ai Gen, come funziona (e a cosa serve) il modello multimodale Llava?

Infodata — Sun, 22 Oct 2023 10:38:25 +0000

Llava sta per Large Language and Vision Assistant, un modello multimodale di grandi dimensioni addestrato da un gruppo di ricercatori . Cosa sa fare? A Llava gli diamo in pasto un’immagine e gli chiediamo cose – per ora in inglese soltanto – abbinate a quella. Per altro, nel nostro test abbiamo visto risposte in pochissimi secondi, ogni volta. Ci sono tre possibili funzioni: riconoscere gli oggetti o il contenuto di una immagine; l’ocr, ossia la lettura di parole presenti nell’immagine; l’analisi dell’immagine dove il modello si collega a una base di conoscenza e quindi può darci consigli e fare considerazioni. Tipo...

Info DataAi Gen, come funziona (e a cosa serve) il modello multimodale Llava? - Info Data

Ai Gen, come funziona (e a cosa serve) il modello multimodale Llava?