Egy mesterséges intelligencia modell a történelem során most először ment át a számítógépek emberszerűségének mérésére szolgáló Turing-teszten. Egy júniusi kutatás szerint a ChatGPT 4.0-ás modelljét a résztvevők 54%-a nem volt képes megkülönböztetni az emberi beszélgetőpartnerektől.
A ChatGPT 2022-es bemutatása óta folyamatosan olvashatunk arról, mennyit fejlődtek a mesterséges intelligencia modellek, ahogyan időnkét a rendszerek korlátairól és a gyakran jelentkező bakikról is hallani lehet.
Abban viszont az emberek nagy része biztos lehet, hogy egy üzenetváltás során meg tudja különböztetni, hogy a mesterséges intelligenciával, vagy egy élő emberrel folytat párbeszédet.
A San Diegó-i Egyetem új kutatása alapján azonban az OpenAI ChatGPT chatbotjával ez már nem olyan egyszerű feladat.
SŐT, A KUTATÁS SORÁN A CHATGPT 4.0-ÁS VERZIÓJÁVAL BESZÉLGETŐ RÉSZTVEVŐK AZ ESETEK TÖBB MINT FELÉBEN AZT HITTÉK, HOGY EGY VALÓS EMBERREL TÁRSALOGNAK.
A kutatásban részt vevő 500 önkéntesnek 5 percet kellett chatelnie egy átlagos üzenetküldő alkalmazáshoz hasonló felületen, miközben nem tudhatta, hogy egy másik emberrel, vagy a 3 tesztelt mesterségesintelligencia-modell közül az egyikkel beszélget.
A modellek között szerepelt az ELIZA, az egyik első mesterséges intelligencia, amelyet 1964 és 1969 között fejlesztettek ki az MIT-n. Ez a rendszer még nem a nagy-nyelvi modellek és a neurális hálózatok alapján működik, hanem előre betanított válaszokkal operál.
A másik két modell a ChatGPT jelenleg is elérhető verziói, a 3.5-ös és a 4.0-ás modell volt.
A tesztek során ELIZA esetében jöttek rá a résztvevők a legkönnyebben, hogy egy géppel beszélgetnek; csupán az esetek 22%-ában sikerült meggyőznie beszélgetőpartnereit az ellenkezőjéről. Az önkéntesek az emberi résztvevőkkel folytatott párbeszédek 67%-ában találták el helyesen, hogy egy másik embertársukkal beszélgetnek.
A ChatGPT 3.5-ös modellje a tesztek felében tudta meggyőzni beszélgetőpartnereit arról, hogy ő valójában egy ember, míg az OpenAI továbbfejlesztett, 4.0-ás modellje a tesztek 54%-ában tudta ezt megtenni, amivel a történelemben először, átment a Turing-teszten.
A TANULMÁNY SZERINT A LEGTÖBB RÉSZVEVŐ A BESZÉLGETÉS SORÁN TAPASZTALT STILISZTIKAI JEGYEKRE ÉS A BESZÉLGETŐPARTNER SZEMÉLYISÉGÉNEK HITELESSÉGÉRE ALAPOZTA A DÖNTÉSÉT.
A kérdést, hogy egy ember mennyire megkülönböztethető egy „gondolkodó” géptől, nem mostanában kezdték el pedzegetni tudományos körökben.
Alan Turing, angol matematikus és számítógéptudós 1950-ben javasolta először, hogy egy ún. „utánzós játékhoz” hasonlóan, tesztnek kellene alávetni az akkoriban létező mesterséges intelligenciát, hogy kiderüljön, mennyire képes imitálni egy ember válaszait a számítógép.
A Turing-tesztnek elnevezett módszer szerint a kísérletben résztvevőknek több egymástól független párbeszédet kell folytatniuk egymás után, miközben tudatában vannak annak, hogy beszélgetőpartnereik között egy-két mesterséges intelligencia is található.
A módszert kitalálása óta rendszeresen alkalmazták a kutatók különböző mesterséges intelligencia rendszerek fejlettségének mérésére, azonban az idén májusban készített kutatásig egy AI-nak sem sikerült átmennie a teszten.
A módszer megbízhatóságát korábban sok kritika érte már. A LiveScience által megkérdezett szakértő szerint
a stilisztikai és társadalmi-érzelmi tényezők nagyobb szerepet játszanak a Turing-teszt teljesítésében, mint az intelligencia hagyományos fogalmai.
Ezt figyelembe véve a Turing-teszt nem egy mesterséges intelligencia IQ tesznek feleltethető meg, hanem sokkal inkább arról szól, hogy mennyire tudják a gépek megtéveszteni az embereket.