A Google a napokban lerántotta a leplet mesterséges intelligenciájának legújabb generációjáról, a Gemini 3-ról. A vállalat szerint az új modell hatalmas ugrást jelent a logikai következtetés és a programozás terén, ráadásul olyan autonóm képességekkel ruházták fel, amelyek alapjaiban változtathatják meg a fejlesztők és az átlagfelhasználók mindennapjait. A verseny élesebb, mint valaha: az OpenAI és az Anthropic lépéseire a keresőóriás egy mindent átfogó integrációval válaszol.
A generatív mesterséges intelligencia piaca egy pillanatra sem pihen, és ezzel talán az Alphabet Inc. (a Google anyavállalata) van a leginkább tisztában. A cég a héten bemutatta a Gemini 3-at, amely azonnal elérhetővé vált a Google összes kulcsfontosságú termékében, beleértve a Keresőt és a Chrome böngészőt is. A vezetők ígérete szerint ráadásul nem csupán egy ráncfelvarrásról van szó: a rendszer drámaian fejlődött abban, hogyan dolgozza fel az információkat, és milyen formában tálalja a válaszokat. Minderről mi is tanúbizonyságot szerettünk volna kapni, így hát kipróbáltuk a keresőóriás új dobását. Röviden és tömören pedig elmondhatjuk, hogy a Google nem igazán túlzott állításaival.
Interaktívabb, mint valaha
Sundar Pichai, a Google vezérigazgatója a bejelentés kapcsán úgy fogalmazott, mindössze két év alatt az AI eljutott oda, hogy már nemcsak egyszerűen elolvassa a szöveget, vagy felismeri a képeket, hanem már átlátja a helyzetet is. Ez a gyakorlatban azt jelenti, hogy a Gemini 3 képes a bemeneti információkat (legyen az szöveg, kép vagy egyéb média) teljesen új formátumokká alakítani. Például ha egy utazási tervet kérünk tőle, a modell már nem egy statikus listát dob ki, hanem egy interaktív vizualizációt kattintható elemekkel és akár térképekkel – ezeket dinamikus válaszoknak hívja a Google.
A Gemini emellett viszont a kódolás terén is hatalmasat ugrott előre. Josh Woodward, a Gemini csapatának vezetője szerint a modell képes egyetlen szöveges utasítás (prompt) alapján működőképes minialkalmazásokat vagy összetett látványterveket generálni. „Nemcsak arról van szó, hogyan érti meg a Gemini a bemenetet, hanem arról is, hogy képes teljesen új, kreatív módokon előállítani a kimenetet” – hangsúlyozta Woodward. A legbonyolultabb felhasználói kérdéseket a Keresőben ezentúl ez a modell válaszolja meg, míg az egyszerűbb feladatoknál a régebbi, erőforrás-kímélőbb verziók maradnak szolgálatban.
A fejlesztők új csodafegyvere: Antigravity
Ennyivel azonban még nem érték be, a Google-nek ugyanis nem titkolt célja, hogy visszaszerezze vezető szerepét a fejlesztői közösségben is. Ennek ékköve az Antigravity nevű új platform, amely ugyan jelenleg még csak előnézeti verzióban érhető el, de már most elképesztő népszerűségnek örvend. Az új rendszer röviden és tömören lehetővé teszi, hogy a programozók autonóm AI-ügynökökre, úgynevezett ágensekre bízzák a munkát.
Képzeljük el, hogy egy fejlesztő egy repülőjárat-követő webalkalmazást szeretne készíteni. A Google demója szerint az Antigravity ágense képes önállóan megírni a kódot, tesztelni azt, sőt ellenőrizni a működést a kódszerkesztő, a terminál és a böngésző közötti váltogatással – mindezt emberi beavatkozás nélkül, csupán egyetlen prompt megadásával.
Emellett a vállalat bevezette a Gemini 3 Deep Think funkciót is, amely kifejezetten a komplex problémamegoldásra fókuszál. Lényeg, hogy ezt aktiválva az AI nem az első szembejövő választ dobja a felhasználó elé, hanem a háttérben párhuzamosan több hipotézist is tesztel, és ezek közül választja ki a legjobbat. Ez a képesség elengedhetetlen a tudományos kutatásoknál, a bonyolult programozási hibák javításánál vagy a stratégiai tervezésnél. A csúcsteljesítménynek azonban ára van: a Deep Think funkció elsőként csak a Google AI Ultra előfizetői számára lesz elérhető – ez a cég legmagasabb szintű csomagja, amelyért havi 250 dollárt, itthon 110 ezer forintot kérnek el.
Tovább a cikkre: index.hu (Gábor Zoltán)