Megérkezett Sora, az OpenAI új videógenerátora, ami játszi könnyedséggel hoz létre akár egyperces mozgóképeket – olyanokat, amelyek ránézésre akár valódinak is tűnhetnek. A fejlesztés szó szerint ámulatba ejtő, létezése azonban több kérdést is felvet – főleg abban a tekintetben, hogy mi fog történni akkor, ha esetleg rossz kezekbe kerül.
Néhány nappal ezelőtt hivatalosan is leleplezte új fejlesztését a ChatGPT-ért is felelős OpenAI, akik ismét megmutatták, hogy jelenleg nincs konkurenciájuk a mesterséges intelligenciát érintő áttörések területén – eredményeik azonban kezdenek egyre félelmetesebbek lenni. Ahogy arról a megjelenéskor az Index is beszámolt, a Sora elnevezésű teljesen új videógeneráló modell szöveges utasítások alapján képes mozgóképeket készíteni, tulajdonképpen bármilyen stílusban – ennek köszönhetően pedig akár valósághű felvételek is generálhatókká válnak.
A mesterséges intelligenciát a fizikai világ megértésére és szimulálására tanítjuk, azzal a céllal, hogy olyan modelleket képezzünk ki, amelyek segítenek az embereknek a valós világbeli interakciót igénylő problémák megoldásában. Bemutatjuk Sorát, aki képes összetett jeleneteket generálni akár több szereplővel és meghatározott típusú mozgásokkal is, úgy, hogy a téma és a háttér pontosan részletezve van. A modell nemcsak azt érti meg, hogy a felhasználó mit kért a promptban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban
– fogalmazott az OpenAI a modell bemutatását követően, később hozzátéve, hogy a modell mélyen érti a nyelvet, így képes pontosan értelmezni a felszólításokat, és olyan lenyűgöző karaktereket generálni, amelyek élénk érzelmeket fejeznek ki. Sora mindezek mellett egyetlen generált videón belül képes több felvételt is létrehozni, amelyek pontosan kitartanak az előzetesen generált karakterek és a vizuális stílusok mellett.
Ámulatba ejtő, amire képes
A bejelentést követően az OpenAi természetesen temérdek példát is mutatott azzal kapcsolatban, hogy mire képes az új mesterséges intelligenciájuk. Az alább látható videót például a következő prompt értelmezésével hozta létre Sora: A kamera egy fehér, fekete tetőcsomagtartóval ellátott régi terepjáró mögött halad, amint egy meredek hegyoldalon, fenyőfákkal körülvett, meredek földúton halad. A gumiabroncsokból por száll fel, a napfény megcsillan a terepjárón, ahogy az a földúton száguld, meleg fényt vetve a jelenetre. A földút lágyan kanyarodik a távolba, más autó vagy jármű nem látható. Az út két oldalán vörösfenyők állnak. Az autó hátulról látható, ahogyan könnyedén követi a kanyarokat a zord terepen.
A modell jól láthatóan remekelt, a leírtakkal szinte egy az egyben megegyező mozgóképet generált, ami első pillantásra akár még valódinak is tűnhet – az profibb nézők azonban még kiszúrhatják, hogy egy MI által generált videóról van szó. A kérdés már csak az, hogy meddig lesz ez így, ha ugyanis már a Sora kezdetleges verziója is ilyen pontossággal képes dolgozni, a határ tényleg csak a csillagos ég lehet.
Egy másik látványos, Sora által generált videóban azt láthatjuk, amint egy nő Tokió utcáin sétál; a promt a következő volt: Egy elegáns nő Tokió neonoktól és városi feliratoktól izzó utcáján sétál. Fekete bőrdzsekit, hosszú piros ruhát és fekete csizmát visel, emellett egy fekete táskát is tart magánál. Napszemüveget és piros rúzst visel. Magabiztosan és lazán sétál. Az utca párás, emiatt az aszfaltról visszatükröződnek a városi fények. A háttérben számos más gyalogos sétál. Az eredményt alább láthatja:
Erről a videóról talán még jobban megmondható, hogy mesterséges intelligencia készítette, a részletek azonban, amiket Sora képes volt generálni, szó szerint ámulatba ejtőek. A nő arca már-már tökéletes részletességgel rendelkezik – a leglátványosabb azonban az, hogy az alany fülbevalója akkor is a lépéseknek megfelelően billeg, amikor a képzeletbeli kamera a nő arcára közelít. Ilyenkor Sora nem generálta le a nő lábait – és ezzel egyetemben azt, hogy éppen lépked – mégis tisztában volt azzal, hogy egy korábbi jelenet során a nő a kamera felé sétált, így ennek megfelelően készítette el a későbbi képkockákat.
Ideje megkongatni a vészharangot?
A felvételeket látva jogosan rázhat ki bárkit a hideg, hiszen elméletben a rengeteg hasznos és jó dolog mellett végtelen mennyiségű káros tartalom gyártására is használható lenne Sora. Jó hír, hogy a modell egyelőre az átlagfelhasználók számára nem elérhető, az OpenAI mindössze néhány kutató és videókészítő számára biztosított hozzáférést, hogy teszteljék, meg tudják-e kerülni az OpenAI szolgáltatásainak szabályait. Ezek többek között tiltják az olyan tartalmakat, amelyeknek az erőszakhoz, a gyűlöletkeltéshez vagy a szexualitáshoz van köze, továbbá mások szellemi tulajdonának, illetve hírességek képmásának felhasználása sem megengedett a programmal. Ennek ellenére az elmúlt hónapokban bőven láttunk erre példát, elég csak Taylor Swift X-en terjedő MI-által készített meztelen képeire gondolni.
Azt, hogy a Sora hogyan fog fejlődni a következő hetekben, hónapokban, egyelőre még nem tudni, ahogy azt sem, hogy az a ChatGPT-hez hasonlóan mikor válik bárki számára hozzáférhetővé – az év hátralévő része azonban minden korábbinál meghatározóbb lehet a mesterséges intelligencia szempontjából.
Vannak még gyengeségei
A Sora jelenlegi változatának azonban még bőven vannak gyengeségei, amiket maga az OpenAI sem titkol. A videógeneráló modell például nehezen tudja pontosan szimulálni egy összetett jelenet fizikáját, és nem érti az ok-okozati összefüggések konkrét eseteit sem. Ezalatt azt értjük, hogy a Sora ugyan játszi könnyedséggel képes generálni egy olyan jelenetet, amikor például egy személy beleharap egy sütibe, azzal azonban már meggyűlik a baja, hogy a sütiben a későbbi képkockák során is látható maradjon a harapásnyom.
A fejlesztők szerint a modell mindemellett összekeverheti a felszólítás térbeli részleteit is, például felcserélheti a bal és a jobb oldalt, és nehézségekbe ütközhet az időben lezajló események pontos leírásával kapcsolatban is, például ha egy adott kamerapálya követéséről van szó. Az OpenAI elkötelezett amellett, hogy a felsorolt rendellenességeket mihamarabb befoltozzák, ezzel egy minden eddiginél intuitívabb videógenerátort készítve, amivel elsősorban a kreatíviparban dolgozók munkáját szeretnék segíteni. A kérdés már csak az, hogy mikor csöppenünk bele ténylegesen egy Black Mirror-epizódba.