Az OpenAI felturbózza a ChatGPT képgenerálási modelljét

Megérkezett a ChatGPT Images 2.0 modell. Teszteléseink azt mutatják, hogy jobban működik részletesebb képek létrehozásában és szövegek megjelenítésében, de az angolon kívüli nyelvekkel továbbra is küzd.

Az OpenAI elindított egyúj képgeneráló mesterséges intelligencia modellt jelentett be kedden, a ChatGPT Images 2.0 névre keresztelve. Ez a modell egyetlen promptból több képet is képes generálni, például egy teljes tanulmányi füzetet, valamint szöveget is képes kimenetileg megjeleníteni, akár nem angol nyelveken, például kínaiul és hindiül is. Ez a kiadás globálisan elérhető a ChatGPT és a Codex felhasználói számára, a fizetős előfizetők számára pedig egy erősebb verzió is elérhető.

Amikor egy nagyobb mesterséges intelligencia fejlesztő cég kiad egy új képmodellt, az felélesztheti az érdeklődést és növelheti a használatot, különösen, ha a közösségi média felhasználói mémképes trendet választanak, átalakítva saját magukról készült képeket. Tavaly a Google Nano Banana modelljének bevezetése jelentős pillanat volt a vállalat számára, különösen akkor, amikor a felhasználók elkezdtek hiperrealisztikus figurákat posztolni magukról az interneten. Idén év elején a ChatGPT Images hullámokat kavart a közösségi médiában, amikor a felhasználók mesterséges intelligencia által generált karikatúrákat osztottak meg.

Mi a különbség?
Mivel az új modell képes kihasználni a ChatGPT „érvelési” képességeit, az Images 2.0 képes keresni az interneten a legfrissebb információkat, és egyszerre több képet is generálni. Lényegében a bot további lépéseket tehet, hogy egyetlen promptból alaposabb generációkat hozzon létre. Az Images 2.0-nak frissebb tudáshatárideje is van: 2025 decembere.

Ez azt is jelenti, hogy az új modell kimenetei részletesebbek. Például létrehoztam egy infografikát San Francisco következő napi időjárás-előrejelzésével, valamint a megfontolandó tevékenységekkel. A ChatGPT által generált kép pontos időjárási adatokat tartalmazott az esős napra, valamint a Ferry Building, a Castro Színház, a Painted Ladies-házak és a Transamerica Pyramid pontosnak tűnő rajzaival.

Ezenkívül az Images 2.0 jobban testreszabható azoknak a felhasználóknak, akik egyedi képarányokat szeretnének a képek kimenetéhez. Az új modell 3:1 szélességtől 1:3 magasságig képes képeket generálni, és a felhasználók a kép méretét a mesterséges intelligencia eszköznek küldött prompt részeként módosíthatják.

Első benyomások
Miután néhány órát töltöttem képek generálásával az új modellel, általánosságban lenyűgözött a szövegmegjelenítési képesség, legalábbis angolul. Nem is olyan régen a szöveget tartalmazó képkimenetek bármelyik nagyobb modell esetében gyakran számos hibásan formázott karaktert vagy hibásan elírt betűkkel rendelkező szavakat tartalmaztak. A ChatGPT két évvel korábban nehezen tudta pontosan címkézni a képeket, így az Images 2.0 letisztultabb, összetettebb kimenetei a folyamatos fejlődés jelei. A Google a Nano Banana legújabb verzióiban a szöveget tartalmazó képkimenetek javítására is összpontosított.

Az új modell különböző nyelveken készült kimeneteit tesztelve megkértem a ChatGPT-t, hogy készítsen egy Timothée Chalamet-témájú kollázsposztert, mintha azt a kínai rajongótáborából valaki készítette volna . A kimenet a filmsztár fotorealisztikus megjelenésű képeinek gyűjteményét tartalmazta, némelyiken hagyományos ruhában vagy macskafülekkel ábrázolták. A mesterséges intelligencia által fejlesztett kollázs maximalista volt a részletek tekintetében, több mint 20 különböző szövegrészlettel, valamint egy gombóc, egy csésze boba és egy panda képeivel.

Nem beszélem a nyelvet, ezért fordítást kértem a bottól egy alapvető kérdéssel: „Mit mond ez a szöveg?” A ChatGPT válasza kritikus volt a saját kimenetével szemben.

„Sok minden hamis, vagy félig zagyva mesterséges intelligencia által generált szöveg, amit kínai mémposzter-írásnak álcáztak, így nem minden fordítható le tisztán” – olvasható részben a kimeneten, mielőtt a ChatGPT átnézte volna a pontosnak és a nem megfelelőnek tűnő részeket. „Van néhány olyan rész is, ami egyértelműen hibásan formázott vagy japán kinézetű karakterekkel kevert, mint például az ellenőrzőlista kártya és néhány díszítő sor a jobb oldalon. Ezek többnyire értelmetlen dolgok, amik inkább kelet-ázsiai rajongói szövegre hasonlítanak, mint pontos mondatokra.”

Tehát, bár az új ChatGPT Images modell jól teljesített a kezdeti tesztjeim során angol nyelvű szöveg generálásakor, nem vagyok biztos benne, hogy a világ minden táján élő felhasználók hasonló eredményeket fognak-e elérni, amikor a saját nyelvükön generálnak szöveget. Bár az OpenAI azon előrelépéseivel, hogy javítja az angol nyelvű kimenetet a mesterséges intelligencia által generált képekhez, nem lennék meglepve, ha a világ minden tájáról származó több felhasználó adatainak együttes felhasználása további fejlesztésekhez vezetne a modell jövőbeli iterációiban.

Tovább a cikkre: wired.com (Reece Rogers)