A Klick Labs deepfake-észlelési módszert fejleszt, amely a vokális biomarkerekre összpontosít

A deepfake audiotechnológia térnyerése számos területen jelentős veszélyeket rejt magában, például a személyes adatok védelmét, a politikai manipulációt és a nemzetbiztonságot. E kockázatok kezelésére a torontói székhelyű Klick Health kutatócsoportja, a Klick Labs kifejlesztett egy biometrikus módszert az emberek által megszólaltatott és a mesterséges intelligencia által generált hangklipek megkülönböztetésére. A megközelítés magában foglalja a vokális biomarkerek elemzését, amelyek olyan jellemzők, amelyek a hangokban jelen vannak, és felfedhetnek információkat a beszélő egészségi állapotáról vagy fiziológiájáról.

A csapat azt állítja , hogy 12 000 biomarkert azonosított, de jelenleg öt kulcsfontosságú jellemzőre támaszkodik, köztük a beszéd hosszára és változatosságára, a mikro- és makropauzák gyakoriságára, valamint a beszéddel és a szünettel töltött idő általános arányára.

„Eredményeink rámutatnak arra, hogy a vokális biomarkereket újszerű megközelítésként használhatjuk a deepfake hamisítások megjelölésére, mivel hiányoznak belőlük a hiteles tartalmakban rejlő árulkodó életjelek” – mondja Yan Fossat, a Klick Labs vezető alelnöke és a tanulmány vezető kutatója.

A Yan Fossat által vezetett kutatócsoport 49, különböző hátterű résztvevő bevonásával végzett vizsgálatot , mindegyikük eltérő akcentussal. Deepfake modelleket képeztek ki ezeken az összegyűjtött hangmintákon, hogy szintetikus hangot hozzanak létre, amelyeket aztán a beszédszünet mintázatai alapján elemeztek.

Az eredmények felfedték, hogy a gépi tanulási modellek körülbelül 80 százalékos pontossággal képesek különbséget tenni az autentikus és a hamisított hang között.

Az év elején a Pindrop Security együttműködött a hangklónozó céggel, a Respeecherrel, hogy elősegítse a generatív mesterséges intelligencia etikus használatát. A Pindrop biometrikus technológiája minden egyes hangfolyamot elemzi, hogy ellenőrizze, valódi emberi hangtól származik-e. A vállalat azt állítja, hogy szoftvere több mint 99 százalékos pontossággal képes észlelni a szintetikus hangokat .