A mesterséges intelligencia modellek is kezdenek elbutulni, ha közösségi médián tanítják őket

Egy új tanulmány kimutatta, hogy a nagy nyelvi modellek közösségi médiából származó, alacsony minőségű, nagy interakciójú tartalommal való etetése csökkenti kognitív képességeiket.

Az Austini Texasi Egyetem, a Texas A&M és a Purdue Egyetem új tanulmánya szerint a népszerű, de alacsony minőségű közösségi média tartalmakkal etetett nagy nyelvi modellek egyfajta „agyrothadást” tapasztalnak, amely ismerős lehet mindazok számára, akik túl sok időt töltöttek doomscrollinggal az X-en vagy a TikTokon.

„Olyan korban élünk, ahol az információ gyorsabban növekszik, mint a figyelem időtartama – és nagy részét a kattintások rögzítésére, nem pedig az igazság vagy a mélység közvetítésére tervezték” – mondja Junyuan Hong, a Szingapúri Nemzeti Egyetem leendő adjunktusa, aki a UT Austin egyetemen posztgraduális hallgatóként dolgozott a tanulmányon. „Azt kérdeztük magunktól: Mi történik, ha a mesterséges intelligenciákat ugyanazon a dolgokon képezik ki?”

Hong és kollégái különböző típusú szövegeket adagoltak két nyílt forráskódú, nagyméretű nyelvi modellnek az előtanítás során. Megvizsgálták, mi történik, amikor a modelleket rendkívül „érdeklődő” vagy széles körben megosztott közösségi média bejegyzések, valamint szenzációs vagy felkapott szövegeket, például „wow”, „nézd” vagy „csak ma” tartalmazó bejegyzések keverékével etették meg.

A kutatók ezután több különböző referenciaértéket használtak, hogy felmérjék ennek a „szemét” közösségi média diétának a hatását két nyílt forráskódú modellre: a Meta Llamájára és az Alibaba Qwenjére.

A szemét szöveggel etetett modellek egyfajta mesterséges intelligencia általi agyrothadást tapasztaltak – kognitív hanyatlással, beleértve a csökkent érvelési képességeket és a romló memóriát. A modellek etikailag kevésbé voltak elkötelezettek és két mérőszám szerint pszichopatikusabbak lettek.

Az eredmények tükrözik az embereken végzett kutatásokat, amelyek azt mutatják , hogy a gyenge minőségű online tartalom káros hatással van az emberek kognitív képességeire. A jelenség elterjedtsége miatt az „agyrothadás” kifejezést választották az Oxford Dictionary 2024-es év szavának .

Hong szerint az eredmények fontosak a mesterséges intelligencia iparág számára, mivel a modellépítők feltételezhetik, hogy a közösségi médiában közzétett bejegyzések jó forrásai a modelljeik betanítási adatainak. „A virális vagy figyelmet felkeltő tartalmakon való betanítás úgy tűnhet, mint az adatok felskálázása” – mondja.

„De csendben alááshatja az érvelést, az etikát és a hosszú kontextusú figyelmet.”

Az a tény, hogy az LLM-ek agyrothadástól szenvednek, különösen aggasztónak tűnik, mivel maga a mesterséges intelligencia is egyre inkább közösségi média tartalmakat generál, amelyek nagy része látszólag az elköteleződésre van optimalizálva. A kutatók azt is megállapították, hogy az alacsony minőségű tartalom által károsított modelleket nem lehet könnyen átképzéssel javítani.

Az eredmények azt is sugallják, hogy a közösségi platformok, például a Grok köré épített mesterséges intelligencia rendszerek minőségellenőrzési problémákkal küzdhetnek, ha a felhasználók által generált bejegyzéseket a betanítás során anélkül használják fel, hogy szem előtt tartanák a bejegyzések integritását.

„Ahogy egyre több AI által generált szemét árasztja el a közösségi médiát, az megmérgezi azokat az adatokat, amelyekből a jövő modelljei tanulnak. Eredményeink pedig azt mutatják, hogy ha ez az agyrothadás egyszer beindul, a későbbi, tiszta képzés sem tudja teljesen visszafordítani.”

Tovább a cikkre: wired.com és raketa.hu