Indica un intervallo di date:
  • Dal Al
tecnologia

Nasce Gemini 1.5 Pro. Ecco cosa sa fare di diverso dagli altri LLM

La novità più attesa  del Google Cloud Next, l’evento annuale di Google sulle potenzialità del cloud computing, è  il debutto di Gemini 1.5 Pro. Viene presentato come il primo modello più grande di Google e completamente multimodale cioè permette di gestire in input testo, immagini e, per la prima volta, i video.

La “finestra di contesto” di un modello di intelligenza artificiale è costituita da token, che sono gli elementi costitutivi utilizzati per l’elaborazione delle informazioni. I token possono essere intere parti o sottosezioni di parole, immagini, video, audio o codice. Quanto più grande è la finestra di contesto di un modello, tanto più informazioni può accogliere ed elaborare in un dato prompt, rendendo il suo output più coerente, pertinente e utile.

Con Gemini 1.5 Pro si ha la possibilità di gestire fino a un milione di token, che si traduce nella possibilità di lavorare con testi di oltre 700.000 parole, 11 ore di audio e 1 ora di video. Va ricordato che, al momento, ChatGPT versione web arriva a 8.000 , Gemini 1.0 Pro a 32.000, GPT-4 Turbo a 128.000 e Claude 2 a 200.000.

Lo abbiamo provato sul campo è il modello  ora può ascoltare i file audio caricati e sfornare informazioni da cose come chiamate sugli utili o audio da video senza la necessità di fare riferimento a una trascrizione scritta.

Gemini 1.5 si basa sulla ricerca di Google sull’architettura Transformer e MoE . Mentre un trasformatore tradizionale funziona come un’unica grande rete neurale, i modelli MoE sono divisi in reti neurali “esperte” più piccole.

A seconda del tipo di input fornito, i modelli MoE imparano ad attivare selettivamente solo i percorsi esperti più rilevanti nella sua rete neurale. Questa specializzazione migliora enormemente l’efficienza del modello. Google è stato uno dei primi ad adottare e pioniere della tecnica MoE per il deep learning attraverso ricerche come MoE Sparsely-Gated , GShard-Transformer , Switch-Transformer, M4 e altre.

Qualche esempio. Quando viene visto un film muto di 44 minuti di Buster Keaton , il modello può analizzare accuratamente vari punti ed eventi della trama e persino ragionare su piccoli dettagli del film che potrebbero facilmente sfuggire. Interessante anche l’apporto su coding.  1.5 Pro, scrivono sul blog di Google,  può eseguire attività di risoluzione dei problemi più rilevanti su blocchi di codice più lunghi. Quando viene ricevuto un prompt con più di 100.000 righe di codice, può ragionare meglio tra esempi, suggerire modifiche utili e fornire spiegazioni su come funzionano le diverse parti del codice. Qui si vedi il video.

Come funziona in pratica. 

In pratica viene offerta una anteprima limitata di 1.5 Pro a sviluppatori e clienti aziendali tramite AI Studio e Vertex AI .La versione 1.5 Pro con una finestra di contesto standard da 128.000 token sarà introdotta quando il modello sarà pronto per una versione più ampia. A breve prevedono di introdurre livelli di prezzo che partono dalla finestra di contesto standard di 128.000 e si espandono fino a 1 milione di token, man mano che miglioriamo il modello.

Per approfondire.

Cerchia e cerca e altre novità Ai di Google sui telefonini Android

Come funziona Sima la nuova Ai di Google che completa i videogiochi al posto vostro

Come funziona e a cosa serve Ecco lo European Statistical Monitor?

Claude 3 di Anthropic è più potente di ChatGPt? Ecco quello che c’è da sapere.

Nasce Genie, il modello di Ai per creare videogiochi da una singola immagine

Ecco cosa promette il generatore di immagini Stable Diffusion 3

Gemma 2B e Gemma 7B. Ecco cosa si può fare con i modelli open source di Gemini

Da Adobe domande e riassunti con l’Ai gen su documenti Pdf

Nasce Sora il modello text-to-video di OpenAi. Ecco come funziona

Come funziona Lumiere l’Ai di Google che genera video dal testo #DatavizAndTools

Microsoft Copilot ora è su tutti gli smartphone. #DatavizAndTools 

Come funzionano Nightshade e Glaze? #DatavizAndTools

Fotoritocco, come funzionano Abobe Photoshop Elements e Premiere? #DatavizAndTools

Ecco come funziona Q il nuovo chatbot di AWS? #DatavizAndTools

Ecco come funziona Microsoft 365 Copilot, l’AI generativa entra nelle app di Office

Ecco come funziona GraphCast il nuovo modello per le previsioni meteorologiche globali di DeepMind

Cosa è e come funziona Code Interpreter per Gpt-4?

Come riconoscere immagini e testi generati dall’AI?

La matematica della ricchezza, la disuguaglianza inevitabile e l’econofisica

Wikipedia, l’intelligenza collettiva e gli affari #datavizandtool

Da Harry Potter mafioso agli ultimi videogiochi ripensati a 8 bit. L’Ai generativa continua a divertire #datavizandtools

Come si costruisce una mappa di Milano con ChatGpt? #datavizandtools

Come funziona MusicGen, il ChatGpt della musica di Meta #DatavizandTools

Bing, come funziona il copilota di Microsoft per il web? #DatavizAndTools

Le ultime novità “audio” dell’Ai generativa #DatavizAndTools

Gpt-4 vs Bard, cinque domande: chi risponde meglio? #howmeasuring

A proposito di mappe, cosa è Overture Maps Foundation? #DatavizAndTools

Ecco le nuove funzionalità di intelligenza artificiale generativa di Photoshop

Come funziona Image, il creatore di mappe di Eurostat?

Come si visualizzazione le serie storiche?