A YouTube-on nap mint nap találkozunk automatikusan generált vagy lefordított feliratokkal. A platform célja, hogy minél több felhasználó számára tegye elérhetővé a tartalmakat nyelvi akadályok nélkül. De vajon milyen mesterségesintelligencia-rendszerek végzik ezt a feladatot a háttérben?
A Google, a YouTube tulajdonosa, már hosszú évek óta vezető szerepet tölt be az MI-alapú nyelvfeldolgozás területén. A YouTube feliratozási és fordítási folyamatai szorosan kapcsolódnak a Google fejlett nyelvi modelljeihez és fordítórendszereihez, amelyek egyre pontosabb és gördülékenyebb feliratokat biztosítanak.
Lépésről-lépésre
A YouTube automatikus feliratozása egy összetett, többlépcsős folyamat, amely elsőként a hangot alakítja át írott szöveggé. Ezt a lépést a Google Speech-to-Text API végzi, amely fejlett gépi tanulási algoritmusokat használ a beszéd felismerésére. A rendszer képes több nyelvet is felismerni, érzékeli a beszélő hangszínét, akcentusát, és még a háttérzajokat is képes kiszűrni egy bizonyos pontig. Ez különösen fontos, hiszen a YouTube-on feltöltött videók hangminősége nagyban eltérhet egymástól.
A beszédfelismerés során az MI-modell nemcsak az egyes szavakat próbálja leírni, hanem figyelembe veszi a mondatszerkezetet, a nyelvtani szabályokat és a természetes beszéd jellemzőit is. A pontosság itt kulcsfontosságú, hiszen minden további lépés erre az alapra épül. Az így létrejövő automatikus feliratok a felhasználók számára is elérhetők, és sok esetben ezek szolgálnak a gépi fordítás alapjául.
Ezután lép működésbe a Google Neural Machine Translation (GNMT), amely a szöveget a kívánt nyelvre fordítja. A GNMT neurális hálózatokat használ arra, hogy ne csak egyéni szavakat, hanem teljes mondatok és szövegkörnyezetek jelentését is megértse. A rendszer például képes felismerni, hogy egy adott kifejezés többféleképp is fordítható, és az adott kontextus alapján választja ki a legmegfelelőbb megoldást. Ez a fajta intelligens fordítás hatalmas előrelépést jelent a korábbi, szabályalapú rendszerekhez képest.
Kontextusérzékeny MI-modellek
A feliratok minőségének javítása érdekében a Google a legmodernebb természetes nyelvfeldolgozó (NLP) modelleket is beveti. Ilyen például a BERT (Bidirectional Encoder Representations from Transformers), amely képes egyszerre előre és visszafelé is olvasni egy szöveget, így az adott szó vagy kifejezés pontos jelentését képes a szöveg egészének tükrében értelmezni. Ez különösen hasznos a többértelmű vagy kulturálisan árnyalt kifejezések esetén.
A BERT mellett egyre nagyobb szerepet kapnak a transzformer-alapú nyelvi modellek is, mint például a T5 (Text-To-Text Transfer Transformer) és annak többnyelvű változata, az mT5. Ezek a modellek nemcsak fordításra, hanem szövegértésre, összefoglalásra, sőt tartalomgenerálásra is alkalmasak. A YouTube esetében főként azért hasznosak, mert képesek megtartani az eredeti mondanivaló stílusát, humorát vagy akár érzelmi tónusát is – ami kulcsfontosságú például vlogok, standup videók, vagy filmes tartalmak esetében.
Ezek a modellek úgynevezett önfigyelő (self-attention) mechanizmusokat is használnak, amelyek segítenek meghatározni, hogy a szövegben mely részek fontosak a fordítás szempontjából. Így például egy hosszabb mondatban a modell képes azonosítani, hogy egy névmás mire utal vissza, vagy hogy egy adott szó kapcsolatban áll-e egy korábban elhangzott kifejezéssel. Ez különösen fontos az olyan nyelvek esetében, ahol a mondatszerkezet eltérő, vagy ahol a hangsúly és a szórend befolyásolja a jelentést.
Nem tökéletes, de hasznos
Fontos tudni, hogy a YouTube feliratainak pontosságát a felhasználók is befolyásolhatják. A rendszer ugyanis tanul a korábbi fordításokból, a felhasználók által készített feliratokból és azok visszajelzéseiből is. A mesterséges intelligencia tehát nem zárt rendszerként működik, hanem folyamatosan fejlődik a közösség aktivitásának köszönhetően.
Bár a jelenlegi MI-k már egészen lenyűgöző eredményeket érnek el, a tökéletes fordítás még mindig kihívást jelent, főként a szleng, a szójátékok vagy a kulturálisan érzékeny tartalmak esetében. A jövőben várhatóan még intelligensebb nyelvi modellek lépnek be a képbe, amelyek képesek lesznek a beszédstílus, a kontextus és a kulturális háttér még mélyebb megértésére.