Valóra vált rémálom az Open AI és a ChatGPT újítása

Új szelek fújnak a mesterséges intelligencia világában: az OpenAI néhány nappal ezelőtt bejelentette legújabb képalkotó modelljét, amit közvetlenül a ChatGPT platformba integráltak, ezzel egy új korszakot nyitva a vizuális tartalomgenerálásban. A korábbi DALL-E 3 integrációt felváltó GPT-4o nem csupán egy egyszerű frissítés, hanem egy jelentős technológiai ugrás, amely multimodalitásával és a szövegrenderelés terén nyújtott kiemelkedő teljesítményével új távlatokat nyit meg a felhasználók előtt. Sokak szerint viszont az OpenAI ezzel a lépésével már átesett annak a bizonyos lónak a túloldalára.
A ChatGPT mostantól sokkal részletesebb, pontosabb és élethűbb képek létrehozására képes, ami eddig elképzelhetetlen volt. A március 25-én elindított új képgeneráló alrendszer célja egyértelmű: a korábbi DALL-E 3 rendszerrel szemben sokkal megbízhatóbb és konzisztensebb eredmények készítése. A GPT-4o ereje abban rejlik, hogy egyszerre akár húsz különböző objektumot is képes kezelni, miközben a köztük lévő komplex kapcsolatokat megőrzi, így ideális választás összetett jelenetek megalkotásához. Emellett kontextuális tudatossága révén a korábbi képekre és a csevegés szövegére építve is képes alkotni, biztosítva a végeredmény koherenciáját.

Az eredmény valóban minden korábbinál lenyűgözőbb – és aggasztóbb –, hátrány viszont, hogy a képek generálása a szerverek terheltségétől függően akár 2-4 percet is igénybe vehet.

Érdekesség, hogy a rendszer rendkívül rugalmas testre szabási lehetőségeket kínál, beleértve a képarány beállítását, a pontos színek megadását hexakódokkal, és akár átlátszó háttér létrehozását is. A GPT-4o-val készíthetünk képeket szöveges leírás alapján, de egy már meglévő képet is módosíthatunk vele. Ami viszont talán a legimpresszívebb, az az, hogy a mesterséges intelligencia rajzolt skiccekből is képes valósághű képeket vagy videókat generálni – alább erre láthat egy példát:

A valóra vált rémálom
Mégsem ez lett az új mesterséges intelligencia legnépszerűbb felhasználási módja. Ha jelen van az X-hez, Facebookhoz, Instagramhoz és Reddithez hasonló közösségi oldalakon, az elmúlt napokban biztosan találkozott már ön is a Studio Ghibli ikonikus animációs stílusát utánzó, mesterséges intelligencia alkotta képekkel. A GPT-4o által létrehozott, rajzolt stílusú fotók elképesztő népszerűségre tettek szert – alig egy óra alatt több mint egymillió felhasználó készített új OpenAI-fiókot a trend miatt. Ennek lényege, hogy az MI meglévő fotóiból olyan alkotásokat kreál, mintha azokat maga Mijazaki Hajao álmodta volna meg.

Öröm az ürömben, hogy míg az MI-generált Ghibli-stílusú képek tarolnak a közösségi médiában, addig a Studio Ghibli maga élesen elhatárolódik a mesterséges intelligencia alkalmazásától a művészetben, így számukra ez most a valóra vált rémálom. A helyzetet csak tovább fokozza, hogy a stúdió legendás társalapítója, Mijazaki már 2016-ban „visszataszítónak” és „az élet megrontójának” nevezte a mesterséges intelligencia által generált művészetet, miután bemutattak neki egy MI-vel animált 3D-s modellt. Mijazaki szerint a mesterséges intelligencia nem képes helyettesíteni az emberi alkotásokat, amelyekben érzelmek és egyedi látásmódok rejlenek.

A trend tehát nemcsak a közösségi médiát pörgette fel, hanem egyben felerősítette a vitát is az MI szerepéről a művészetben. Sokan attól tartanak, hogy az MI-generált tartalmak aláássák a hagyományos animációs ipart, miközben mások éppen a technológia adta kreatív lehetőségeket ünneplik. Ezek mellett pedig olyan kérdéseket is felvetettek a Studio Ghibli rajongói, hogy mennyire etikus az egyik legikonikusabb japán filmstúdió művészeti stílusát ilyen szinten másolni.

Olvadnak a szerverek

Mindeközben pedig az OpenAI feje is főhet, a Ghibli-stílusú képgenerálás ugyanis komoly technikai kihívások elé állította a vállalatot. Sam Altman vezérigazgató a napokban azzal viccelődött, hogy szervereik már-már olvadoznak, így korlátozásokat vezettek be a képgenerálások számát illetően. Ennek értelmében az ingyenes felhasználók legfeljebb napi három képet készíthetnek.

Mindazonáltal, a ChatGPT új képalkotó eszköze nem tökéletes. A felhasználók nehézségekről számoltak be a képek bizonyos részeinek pontos szerkesztése esetében, az arcvonások következetes megőrzésében, valamint olyan feladatok kezelésében, mint a kivágás, az adatok vizualizációja és a többnyelvű szövegrenderelés. Minden bizonnyal ez állhat azon döntés mögött is, miszerint a ChatGPT-n belül a GPT-4o képalkotó mellett a DALL-E is elérhető marad, így a felhasználók igényeik szerint váltogathatnak a két modell között.

Az OpenAI elméletben már aktívan dolgozik a fejlesztéseken, a javítások várhatóan a közeljövőben megvalósulnak. A kérdés már csak az, hogyan viszonyulnak mindehhez a kreatív iparban dolgozók, illetve hogy tovább feszül-e a hangulat a Studio Ghibli és az OpenAI között.