Az emberiség és a mesterséges intelligencia apokalipszise között csak… Claude áll?

Ahogy a mesterséges intelligencia rendszerei egyre erősebbek lesznek, az Anthropic rezidens filozófusa szerint a startup arra fogad, hogy Claude maga is elsajátíthatja a katasztrófa elkerüléséhez szükséges bölcsességet.

Az Anthropic paradoxonban van: A vezető mesterséges intelligencia cégek közül a leginkább a biztonság megszállottja, és vezető szerepet tölt be a modellek meghibásodásának okait kutatva. De bár az általa azonosított biztonsági problémák messze nem oldódtak meg, az Anthropic ugyanolyan agresszívan törekszik a mesterséges intelligencia következő, potenciálisan veszélyesebb szintje felé, mint versenytársai. Fő küldetése ennek az ellentmondásnak a feloldása.

A múlt hónapban az Anthropic két dokumentumot tett közzé, amelyek mind elismerték az általa követett úttal járó kockázatokat, mind pedig utaltak egy olyan útvonalra, amelyen keresztül kikerülhetik a paradoxont. Dario Amodei vezérigazgató hosszú blogbejegyzése, a „ The Adolescence of Technology ” névleg a „nagy teljesítményű mesterséges intelligencia kockázatainak leküzdéséről” szól, de több időt szentel az előbbinek, mint az utóbbinak. Amodei tapintatosan „ijesztőnek” nevezi a kihívást, de a mesterséges intelligencia kockázatainak ábrázolása – amelyet, mint megjegyzi, sokkal súlyosabbá tesz az a nagy valószínűség, hogy az autoriterek visszaélnek a technológiával – ellentétben áll korábbi, optimistább proto-utópikus esszéjével, a „ Machines of Loving Grace ”-szal.

A bejegyzés egy adatközpontban élő zseniális nemzetről szólt; a legutóbbi hír a „végtelen fekete tengereit” idézi. Dante-t keresem! Amodei mégis, több mint 20 000, többnyire komor szó után, végül optimizmusra hallgat, mondván, hogy még a legsötétebb körülmények között is az emberiség mindig győzedelmeskedett.

Az Anthropic által januárban publikált második dokumentum, a „ Claude alkotmánya ” arra összpontosít, hogyan lehetne megvalósítani ezt a trükköt. A szöveg technikailag egyetlen közönségnek szól: magának Claude-nak (valamint a chatbot jövőbeli verzióinak). Ez egy lebilincselő dokumentum, amely feltárja az Anthropic elképzelését arról, hogy a Claude, és talán a mesterséges intelligencia alapú társai, hogyan fogják eligazodni a világ kihívásai között. A lényeg: Az Anthropic azt tervezi, hogy magára a Claude-ra támaszkodik a vállalati gordiuszi csomó kibogozásában.

Az Anthropic piaci megkülönböztető jegye régóta az Alkotmányos AI nevű technológia . Ez egy olyan folyamat, amelynek során modelljei olyan alapelvekhez igazodnak, amelyek összhangban vannak az értékeikkel és az egészséges emberi etikával. A Claude kezdeti alkotmánya számos dokumentumot tartalmazott, amelyek célja ezen értékek megtestesítése volt – olyanok, mint a Sparrow (a DeepMind által létrehozott rasszizmus- és erőszakellenes nyilatkozatok gyűjteménye), az Emberi Jogok Egyetemes Nyilatkozata és az Apple szolgáltatási feltételei (!). A 2026-os frissített verzió más: inkább egy hosszú felhívás, amely felvázolja azt az etikai keretrendszert, amelyet Claude követni fog, és önállóan felfedezi az igazságossághoz vezető legjobb utat.

Amanda Askell, a filozófia doktora, aki a revízió vezető szerzője volt, elmagyarázza, hogy az Anthropic megközelítése erőteljesebb annál, mint hogy egyszerűen azt mondjuk Claude-nak, hogy kövessen egy sor kimondott szabályt. „Ha az emberek csak azért követik a szabályokat, mert léteznek, az gyakran rosszabb, mintha megértenéd, miért van érvényben a szabály” – magyarázza Askell. Az alkotmány kimondja, hogy Claude-nak „független ítélőképességet” kell gyakorolnia olyan helyzetekben, amelyek megkövetelik a segítőkészség, a biztonság és az őszinteség közötti egyensúlyozást.

Így fogalmaz az alkotmány: „Míg azt szeretnénk, hogy Claude ésszerű és szigorú legyen, amikor explicit módon gondolkodik az etikáról, azt is szeretnénk, hogy Claude intuitíven érzékeny legyen a szempontok széles skálájára, és képes legyen ezeket a szempontokat gyorsan és ésszerűen mérlegelni az élő döntéshozatal során.” Az „intuitívan ” szóhasználat sokatmondó – a feltételezés az, hogy Claude motorháztetője mögött több van, mint pusztán egy algoritmus, amely kiválasztja a következő szót. A „Claude-intézmény”, ahogy nevezhetnénk, azt a reményt is kifejezi, hogy a chatbot „egyre inkább a saját bölcsességére és megértésére támaszkodhat”.

Bölcsesség? Persze, sokan fogadják meg a nagy nyelvi modellek tanácsait, de egészen más dolog azt állítani, hogy ezek az algoritmikus eszközök valóban rendelkeznek az ilyen kifejezésekhez társított komolysággal. Askell nem hátrál meg, amikor ezt megemlítem. „Azt hiszem, Claude képes egy bizonyos fajta bölcsességre” – mondja nekem.

Érvelésének alátámasztására Askell egy egyszerű biztonsági problémára vonatkozó példát hozott fel. Az emberek természetesen nem akarják, hogy Claude káros eszközökkel ruházza fel a rosszindulatú szereplőket. De szélsőséges esetben az ilyen óvatosság korlátozhatja Claude hasznosságát, vagyis a „hasznosságát”. Vegyük például egy leendő kézműves esetét, aki egy újfajta acélból szeretne kést készíteni. Első látásra nincs ezzel semmi baj, és Claude-nak segítenie kellene. De ha az a személy korábban említette, hogy meg akarja ölni a húgát, Claude-nak ezt figyelembe kell vennie, és hangot kell adnia az aggályainak. Nincs azonban szigorú szabálykönyv, amely megmondaná, hogy mikor kell a hüvelyébe tenni az ilyen információs tőrt.

Képzeljünk el egy másik esetet, amikor Claude értelmezi a felhasználó orvosi tüneteit és teszteredményeit, és arra a következtetésre jut, hogy a személy halálos betegségben szenved. Hogyan kellene ezt kezelni? Askell feltételezése szerint Claude dönthet úgy, hogy tartózkodik a hír közlésétől, de arra ösztönzi a személyt, hogy forduljon orvoshoz. Vagy ügyesen irányíthatja a beszélgetést úgy, hogy a prognózis a lehető legenyhébb félelem keltéssel történjen. Vagy kitalálhat egy jobb módot a rossz hír közlésére, mint amit még a legkedvesebb orvos is kidolgozott volna. Végül is az Anthropic azt akarja, hogy Claude ne csak megfeleljen az emberiség legjobb impulzusainak, hanem túl is szárnyalja azokat. „Megpróbáljuk rávenni Claude-ot, hogy legalábbis jelenleg a legjobb tudásunk szerint utánozza” – mondja Askell. „Jelenleg majdnem ott tartunk, hogyan lehet olyan modelleket létrehozni, amelyek megfelelnek az emberek legjobbjainak. Valamikor Claude még ennél is jobb lesz.”

Ha az Anthropicnak sikerül ezt a bravúrt megvalósítania, az feloldhatja azt a kulcsfontosságú ellentmondást, amely szinte az összes MI-laboratóriumot és -céget sújtja: Ha azt gondolod, hogy ez a technológia annyira veszélyes, akkor miért építed? Az Anthropic számára a válasz: Claude-ban bízunk. Claude új alkotmánya a modell bölcsességhez vezető jövőbeli útját szinte egy hős küldetéséhez hasonlóan tárgyalja. Megdöbbentően sok szót használnak arra, hogy Claude-ot erkölcsi lényként kezeljék, akinek jóléte tiszteletet követel. Ez Dr. Seuss klasszikus könyvére, az Ó, ahová eljutsz! -ra emlékeztet , a felemelő kötetre, amelyet gyakran ajándékoznak a frissen végzett diplomások.

Amikor ezt megemlítem Askellnek, pontosan tudja, mire gondolok. „Olyan, mintha azt mondanám: »Itt van Claude«” – mondja. „Megcsináltuk ezt a részt, a lehető legtöbb kontextust adtuk Claude-nak, aztán pedig folytatódnia kell, interakcióba kell lépnie az emberekkel, és dolgokat kell tennie.”

Az Anthropic nem egyedül azt sugallja, hogy az emberiség jövője a mesterséges intelligencia modelljeinek bölcsességétől függhet. Sam Altman, az OpenAI vezérigazgatója egy új magazinprofilban úgy vélekedett , hogy a vállalat utódlási terve az, hogy a vezetést egy jövőbeli mesterséges intelligencia modellnek adják át. Nemrégiben a WIRED riporterének, Max Ziffnek elmondta, hogy a hatalom gépekre való átadása régóta a terve, és a mesterséges intelligencia kódolásában elért legújabb fejlesztések csak megerősítették az önbizalmát. „Ez mindenképpen arra késztetett, hogy arra gondoljak, hogy egy kicsit korábban adom át a dolgokat egy mesterséges intelligencia vezérigazgatójának” – mondta Altman. „Sok olyan dolgot tud megcsinálni egy mesterséges intelligencia vezérigazgatója, amit egy emberi vezérigazgató nem.”

Kérjük, vegye figyelembe, hogy ez az optimista nézet a jövőről. Ebben a vízióban egy napon a főnökeink robotok lesznek, és ők irányítják majd a vállalatokat, sőt talán a kormányokat is a holnap komplex, mesterséges intelligencia által vezérelt világában. Néhány döntésük könnyen emberi munkavállalók állandó fizetés nélküli elbocsátását vonhatja maga után. De ha ezeket a felsővezetői szintű mesterséges intelligencia modelleket Claude alkotmánya vezérli, akkor sokkal empatikusabban fogják közölni a szomorú hírt az alkalmazottakkal, mint mondjuk a The Washington Post kiadója tette ezen a héten, amikor nem jelent meg a Zoom-híváson, amelyben több száz újságírót tájékoztatott arról, hogy már nincs rájuk szükség.

A pesszimista nézet szerint a mesterséges intelligencia modelljeink fejlesztőinek legjobb erőfeszítései ellenére sem lesznek elég bölcsek, érzékenyek vagy őszinték ahhoz, hogy ellenálljanak a rossz szándékú emberek manipulációjának, vagy talán maguk a modellek fognak visszaélni az általunk nekik biztosított autonómiával. Akár tetszik, akár nem, de készen állunk erre. Az Anthropicnak legalább van terve.

Tovább a cikkre: wired.com (Steven Levy)