Tecnologia

Gemini AI Google: cos’è e come usarlo

Tra i vari partecipanti al crescente settore dell’intelligenza artificiale generativa non poteva certamente mancare Google. E, proprio per questo motivo, se non lo hai ancora fatto ti conviene prendere la giusta confidenza con Gemini, la piattaforma AI con cui Google spera almeno di non perdere terreno nei confronti della concorrenza. Ma cos’è Gemini? Come puoi …

Tra i vari partecipanti al crescente settore dell’intelligenza artificiale generativa non poteva certamente mancare Google. E, proprio per questo motivo, se non lo hai ancora fatto ti conviene prendere la giusta confidenza con Gemini, la piattaforma AI con cui Google spera almeno di non perdere terreno nei confronti della concorrenza.

Ma cos’è Gemini? Come puoi usarlo? Come si posiziona rispetto alla concorrenza?

Abbiamo cercato di riassumere tutto quello che dovresti sapere in questa pratica guida che aggiorneremo mese dopo mese con le novità sul servizio, sui nuovi modelli e sulle ultime funzionalità.

Cos’è Gemini?

Gemini è il nome che Google ha dato a un set di modelli di intelligenza artificiale generativa di nuova generazione sviluppata dai laboratori di ricerca sull’AI DeepMind e Google Research.

Attualmente Gemini è declinata in tre distinte versioni:

  • Gemini Ultra, che dovrebbe costituire il modello di punta di Gemini;
  • Gemini Pro, un modello leggermente semplificato rispetto all’Ultra;
  • Gemini Nano, più piccolo e snello, destinato a funzionare sui dispositivi mobili.

Google ci tiene particolarmente a evidenziare sul sito internet del progetto che tutti i modelli Gemini sono stati addestrati per essere nativamente multimodali. Ovvero, in altri termini, a lavorare e utilizzare non solamente il testo in diverse lingue, ma anche audio, immagini e video.

È questa la caratteristica che distingue Gemini da modelli come LaMDA, il modello linguistico di Google, che è invece addestrato solo su dati testuali ma non è in grado di comprendere o generare contenuti diversi dal testo.

Differenza tra Bard e Gemini: sono la stessa cosa o no?

A questo punto potresti domandarti se Bard e Gemini siano la stessa cosa o se ci siano delle differenze tra i due prodotti di Google.

In realtà, la risposta non è un mistero: Bard e Gemini NON sono la stessa cosa. Eppure, c’è ancora tanta confusione su questo tema, complice anche il fatto che Google inizialmente non aveva chiarito esattamente i diversi ruoli di questi prodotti.

Per comprendere in cosa si differenzino, indichiamo Bard come un’interfaccia utente mediante cui è possibile accedere ai modelli Gemini, mentre definiamo Gemini un set di modelli di intelligenza artificiale generativa. Insomma, Bard è una sorta di client, di app o di front-end, mentre Gemini è il cuore dell’AI Google.

Per fare un parallelismo con OpenAI e il suo ChatGPT, Bard è l’equivalente di quest’ultima, mentre Gemini corrisponde al modello linguistico che alimenta la piattaforma, che nel caso di ChatGPT è GPT 3.5 o l’ultimo GPT 4.

A cosa serve Gemini: ecco cosa puoi fare

Da un punto di vista potenziale, considerato che i modelli sono multimodali, le diverse versioni di Gemini potrebbero essere sfruttati per svolgere una serie di compiti piuttosto avanzati. Si pensi alla possibilità – l’esempio non è evidentemente esaustivo – di trascrivere rielaborare il parlato in un testo di sintesi, all’aggiunta automatica di didascalie alle immagini, al riassunto di un video, alla generazione di creazioni artistiche e così via.

Tutto ciò, almeno, può avvenire da un punto di vista potenziale. Attualmente Google non ha infatti svelato quali siano le effettive proprietà dell’odierna versione di Gemini, ma si è limitato a dire che le funzioni non ancora disponibili lo saranno nel prossimo futuro.

gemini ai google

Gemini Ultra

Tutto ciò premesso, è chiaro come il modello più interessante per Gemini sia sicuramente Ultra. Considerato che non è stato reso ancora disponibile e che la versione 1.0 è stata provata da un ristretto gruppo di utenti, non possiamo che limitarci alle prime impressioni dei tester e alle dichiarazioni che Google ha rilasciato sul suo sito ufficiale, dove emerge come le potenzialità di Ultra siano tali da surclassare GPT in termini di capacità generali, di ragionamento e risoluzione di problemi, di calcolo matematico, di generazione di codici di programmazione e, ancora, creazione di immagini, video e audio.

Gemini Pro

A differenza di Gemini Ultra, Gemini Pro è già disponibile pubblicamente, anche se non tutte le funzionalità sono presenti in tutti i mercati (dove lo è, si può utilizzare tramite Bard). Grazie ai passi in avanti compiuti rispetto a LaMDA in termini di capacità di ragionamento, pianificazione e comprensione, un dossier curato da Carnegie Mellon e BerriAI rivela che effettivamente Gemini Pro è migliore di GPT-3.5 di OpenAI nel gestire processi di ragionamento lunghi e complessi.

Di contro, lo stesso dossier ha rilevato che Gemini Pro è più in difficoltà con i problemi matematici, come peraltro già messo in evidenza da numerosi utenti. Google sta apportando dei miglioramenti ed è lecito immaginarsi delle novità settimana dopo settimana.

Peraltro, Gemini Pro è disponibile anche tramite API in Vertex AI, la piattaforma per sviluppatori di intelligenza artificiale completamente gestita da Google che accetta testo come input e genera testo come output. Gemini Pro Vision è però in grado di elaborare anche testo e immagini – comprese foto e video – e di produrre testo sulla falsariga del modello GPT-4 with Vision di OpenAI.

Gemini Nano

Come anticipato, c’è poi Gemini Nano, una versione molto più piccola e semplificata dei modelli Gemini Pro e Ultra, abbastanza efficiente da essere eseguito direttamente su alcuni dispositivi mobili invece di richiedere il dialogo con un server.

Per il momento Nano è stato utilizzato da Google per alimentare diverse funzionalità all’interno del Pixel 8 Pro, come Recorder e Smart Reply in Gboard.

In particolare, l’app Recorder consente agli utenti di premere un pulsante per registrare e trascrivere l’audio, includendo al suo interno un riepilogo Gemini-powered delle registrazioni. Gli utenti possono ottenere questi riepiloghi anche se non hanno a disposizione un segnale o una connessione Wi-Fi. Nella tutela della privacy, i dati vengono conservati all’interno del telefono.

Gboard è invece l’app tastiera di Google in cui è presente la funzione Smart Reply, che aiuta a suggerire la prossima cosa da dire durante una conversazione in un’app di messaggistica. Inizialmente la funzione è disponibile solo con WhatsApp, ma nel 2024 verrà estesa su altre app, afferma Google.

Gemini è migliore di ChatGPT?

Una delle grandi domande che gli utenti si stanno ponendo in queste settimane è se Gemini sia o meno migliore di ChatGPT.

La verità è che almeno per il momento non è possibile fornire una risposta a questa domanda per la semplice evidenza che Google non ha ancora pienamente rilasciato la versione Ultra. Dunque, sebbene nel suo sito internet vengano pubblicate delle tabelle comparative che mostrano che Ultra è meglio del GPT-4 di OpenAI, non è ancora possibile sperimentare se effettivamente sia così.

gemini chatgpt

Peraltro, oltre a dichiarare la superiorità di Gemini nei benchmark, affermando che Gemini Ultra supera gli attuali risultati dello stato dell’arte in 30 dei 32 benchmark utilizzati nella ricerca e nello sviluppo di modelli linguistici di grandi dimensioni, l’azienda sostiene anche che Gemini Pro è più avanzato di GPT-3.5 in compiti come il riassunto di contenuti, il brainstorming e la scrittura.

Notiamo inoltre che nelle tabelle comparative la stessa Google indica che Gemini è un modello migliore ma con punteggi che sembrano essere solo marginalmente migliori dei modelli corrispondenti di OpenAI. Insomma, nella migliore delle ipotesi sembra che Gemini sarà migliore di GPT-4, ma non di tanto.

Quanto costa Gemini?

Come abbiamo già ripetuto nelle scorse righe, per il momento è possibile utilizzare i modelli Gemini sono fino al Pro, fruibile gratuitamente in Bard e, per ora, in AI Studio e Vertex AI. Ancora nulla è dato sapere circa i costi della versione Ultra.

Dove si può usare Gemini?

Il modo più semplice per provare Gemini Pro è Bard: una versione perfezionata di Gemini Pro risponde alle richieste di testo in inglese negli Stati Uniti, mentre altre lingue e Paesi supportati sono in corso di rilascio o di perfezionamento.

Gemini Pro è anche accessibile in anteprima anche in Vertex AI tramite un’API. Per il momento l’API è gratuita e supporta 38 lingue e regioni, ma dovrebbe diventare a pagamento.

Ancora, Gemini Pro è utilizzabili in AI Studio: usando questo servizio, gli sviluppatori possono creare prompt e chatbot basati su Gemini e poi ottenere chiavi API per utilizzarli nelle loro applicazioni, oppure esportare il codice in un IDE più completo.

Tra le altre applicazioni che integrano Gemini c’è poi la suite Duet AI for Developers, gli strumenti di assistenza di Google basati sull’intelligenza artificiale per il completamento e la generazione di codice.

Ricordiamo invece che Gemini Nano è presente sul Pixel 8 Pro e che in futuro dovrebbe arrivare su altri dispositivi.

Giornalista, copywriter, esperto di finanza e marketing editoriale, collabora con alcuni dei più noti network nazionali dell'informazione

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Pulsante per tornare all'inizio