Blog

Vissza a cikkekhez

Miért nem tud (jól) az AI magyarul?

Dátum: 2023. 05. 12 09:02

A ChatGTP-hez hasonló, nagy nyelvi modelleken alapuló AI megoldások elképesztően jók abban, hogy megértsék a nekik címzett kérdéseket vagy kéréseket, és megfelelő választ adjanak rájuk. Legalábbis angolul. De miért látunk gyakran sokkal gyengébb eredményeket, ha magyar nyelvű tartalmat szeretnénk előállítani? Nézzük!

Az amerikai Vox április közepi videója pont azt a kérdést tette fel, hogy amikor bármilyen nyelvet megtanulhatna egy AI, vajon megfelelően elsajátítja-e mindegyiket? Az elmúlt hetekben-hónapokban mi a Crane-nél is rengeteget foglalkoztunk az AI hírekkel, és egy egész sorozatban is összefoglaltuk, hogy mit látunk a marketinges alkalmazhatóságával kapcsolatban. De ezeket az eszközöket próbálgatva nagyon gyorsan belefutottunk abba, hogy kis piacként, a világ egyik legnehezebben tanulható nyelvével ritkán kapunk vissza olyan szöveget vagy fordítást, ami, ha nem is teljesen használhatatlan, nem igényel komolyabb utómunkát egy szövegírótól. Mi áll ennek a hátterében? Phil Edwards, a Vox senior video producere a Common Crawlhoz vezette vissza a problémát.

Mi az a Common Crawl és miért érdekes nekünk? A Common Crawl Alapítvány egy kaliforniai székhelyű nonprofit szervezet, ők viszik azt a hatalmas webarchiváló projektet, ami 2008 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat bárkinek, aki kutatási, oktatási vagy akár üzleti célra használni akarja azt. Saját fejlesztésű crawler botjuk évente többször végigjárja a teljes nyilvános webet, és mindent indexel. És kihasználja – többek között – a Common Crawlt a legnagyobb forrásaként? Az OpenAI, ChatGPT és DALL-E-fejlesztője.

Arról, hogy milyen adatforrásokból tanult a jelenlegi modell, a GPT-4, nincs nyilvános adat, és a GPT-3 forrásait se veri nagy dobra az OpenAI, de ebben a tudományos publikációban megtaláljuk a választ.

Ebben a tréning mixben a Common Crawl adta az adatok 60%-át – azon belül is egy 2016 és 2019. közötti, eredetileg 45 terabájtnyi adag, ami aztán tovább szűrtek egy mindössze 570 gigás csomagra. A WebText 2 olyan weboldalak szövege, amiket legalább 3 upvote-tal rendelkező Reddit posztban linkelt valaki, de ez már sokkal kevesebbet nyom a latba, csak 22%-ot. A további források pedig még kevésbé jelentősek súlyban, de a két online elérhető könyvkorpusz van még az adatszettben, és utolsó helyen a Wikipedia is befigyel (azon belül is az angol nyelvű oldalak).

A GPT-2 és a GPT-3 alapvetően ugyanakkora adatszetten tanult, csak a 2 még „csak” 1,5 milliárd paraméterrel dolgozott, míg a 3 már 175 milliárddal, így komplexebb mintázatokat is fel tudott ismerni az adatok között és magában a nyelvhasználatban is. Ezáltal pedig a modell az emberek adta inputot is jobban megérti és a válaszai is jobban hasonlítanak egy emberi válaszra. A nagy nyelvi modellek tehát arrafelé haladnak, hogy a több adat nem feltétlenül jobb, amíg az adatszett jó minőségű és nagyobb, több paraméterrel dolgozó modellt engednek rá. De mi a helyzet, ha az adatszett döntő többségben egyetlen nyelvből építkezik?

Ez itt az utolsó elemzett Common Crawlban (2023. március-április) indexelt HMTL oldalak nyelveinél az első 25 helyezett.

Az angol toronymagasan vezet, a vizsgált oldalak majdnem fele angol nyelvű volt, még ha tavaly november-decemberi crawl óta március-áprilisra 0,13%-ot csökkent is az angol oldalak súlya. A magyar nyelv a listán a 20., ami ahhoz képest, hogy a lakosság mérete alapján a világon a 94., területre 110., a legtöbbek által beszélt nyelvek alapján pedig 92. helyen vagyunk, meglepően komoly súlyt ad nekünk; de az összes vizsgált lapnak ez így is csak a 0,61%-a.

De végül is a Common Crawl „csak” 60% volt, a teljes adatszettet vizsgálva csak kiegyensúlyozottabb a helyzet, nem? Hát, nem éppen. Az OpenAI saját GitHub GTP-3 archívumának elemzése alapján így áll a modell az adatszettben használt szavak nyelve alapján:

Majdnem 93% angol, 0,065% magyar… És igen, lehet, hogy nem csak az adatmennyiség számít, nagyon fontosak azok a paraméterek. Elvégre a magyar szövegek, amit mondjuk egy ChatGPT-től látunk, nem boraszatóak, csak nem is élnek meg egy szövegíró nélkül. Ez a 127 millió magyar szó láthatóan kevés a modellnek ahhoz, hogy igazán elsajátíthassa a nyelvet.

Ennél is szomorúbb adat, hogy globálisan körülbelül 7000 (!) nyelvet beszélünk, és ebből mindössze 20 adja a természetes nyelvek feldolgozásával (Natural Language Processing, vagy NLP) foglalkozó kutatások döntő többségének fókuszát. Érdemes megnézni a Vox videót, ahol három kutatóval is beszélgetnek, akik olyan új adatszetteket próbálnak létrehozni, amik választ jelenthetnek erre a problémára olyan elhanyagolt, kevés forrással nyelvek rendelkező esetében, mint a jamaicai kreol vagy a katalán. Vagy épp egy üresben álló francia szuperszámítógéppel egy open source, 46 természetes nyelvet (köztük sok hagyományosan kisebb digitális lábnyommal bíró afrikai nyelvet) és 13 programozási nyelvet tartalmazó nagy nyelvi modellt alkotnak, mint a Bloom.

A magyar nincs köztük, de akkor mire számíthatunk itthon? Megbízható nyelvmodellt készíteni Magyarországon nem kis falat, és az, hogy jelenleg nincs ilyenünk, elsősorban nem a szándék, hanem az anyagi keret és a modell betanításához szükséges korpusz hiányára vezethető vissza. Jó hír azonban, hogy a GPT-k fejlesztéséhez felhasznált nyelvi korpuszhoz hasonló, bár annál jóval kisebb szöveggyűjtemény összeállításán dolgozik az ELTE Digitális Bölcsészet Tanszékének és a Digitális Örökség Nemzeti Laboratórium (DH-Lab) közös kutatócsoportja. A fejlesztők április végén adtak interjút a Qubitnek, ahol mesélnek a külső finanszírozás szerepéről, hogy mekkorát kell küzdeni minden digitálisan fellelhető jó minőségű forrásért a szépirodalmi művektől a szakdolgozatokig, vagy éppen hogy mi fán terem egy digitális bölcsész. A konkrét betanítási folyamat, maga a modellépítés idén nyáron kezdődhet, de a stabil és megbízható viselkedéséhez elengedhetetlen lesz majd a finomhangolás is. Még arra is van módszerük, amikor a modell következetesen ront, elfogadhatatlan (például rasszista) megnyilvánulásokkal válaszol. Mi lesz az eredmény? Mi biztosan kíváncsian várjuk!

Adatvédelmi áttekintés / Privacy Overview

Ez a weboldal sütik segítségével javítja az Ön élményét, miközben Ön a weblapon navigál. Ezek közül a sütik közül a szükséges kategóriába sorolt sütik az Ön böngészőjében tárolódnak, mivel nélkülözhetetlenek a weboldal alapvető funkcióinak működéséhez...

Mutass többet / Show more

Szükséges Sütik / Necessary Always Enabled

A szükséges sütik nélkülözhetetlenek a webhely megfelelő működéséhez. Ez a kategória csak azokat a sütiket tartalmazza, amelyek biztosítják a weboldal alapvető funkcióit és biztonsági jellemzőit. Ezek a sütik nem tárolnak semmilyen személyes információt.

Teljesítmény és Analitikai / Performance and Analytical

Disabled

Süti / Cookie	Időtartam / Duration	Leírás / Description
_ga_Q8D89SHQ21	2 év / 2 years	Ezt a sütit a Google Analytics telepítette.
_ga	2 év / 2 years	A Google Analytics által telepített _ga cookie kiszámítja a látogatói, munkamenet- és kampányadatokat, valamint nyomon követi a webhelyhasználatot a webhely analitikai jelentéséhez. A süti névtelenül tárolja az információkat, és véletlenszerűen generált számot rendel hozzá az egyedi látogatók felismeréséhez.
_gid	1 nap / 1 day	A Google Analytics által telepített _gid cookie információkat tárol arról, hogy a látogatók hogyan használják a webhelyet, miközben analitikai jelentést is készít a webhely teljesítményéről. Az összegyűjtött adatok egy része magában foglalja a látogatók számát, azok forrását és az általuk névtelenül felkeresett oldalakat.
_gat_gtag_UA_10895955_26	1 perc / 1 minute	A Google a felhasználók megkülönböztetésére állította be.
_hjFirstSeen	30 perc / 30 minutes	A Hotjar beállítja ezt a cookie-t, hogy azonosítsa az új felhasználó első munkamenetét. Igaz/hamis értéket tárol, jelezve, hogy Hotjar először látta-e ezt a felhasználót.
_hjIncludedInSessionSample	2 perc / 2 minutes	A Hotjar beállítja ezt a cookie-t, hogy megtudja, hogy egy felhasználó benne van-e a webhely napi munkamenet-korlátja által meghatározott adatmintában.
_hjIncludedInPageviewSample	2 perc / 2 minutes	A Hotjar beállítja ezt a cookie-t, hogy megtudja, hogy egy felhasználó szerepel-e a webhely oldalmegtekintési korlátja által meghatározott adatmintavételben.
_hjAbsoluteSessionInProgress	30 perc / 30 minutes	A Hotjar beállítja ezt a cookie-t a felhasználó első oldalmegtekintési munkamenetének észlelésére. Ez a cookie által beállított igaz/hamis jelző.
_hjSessionUser_3056214	1 év / 1 year	A Hotjar beállítja ezt a sütit.
_hjSession_3056214	30 perc / 30 minutes	A Hotjar beállítja ezt a sütit.

Marketing / Marketing Disabled

Süti / Cookie	Időtartam / Duration	Leírás / Description
_fbp	3 hónap / 3 months	Ezt a cookie-t a Facebook úgy állította be, hogy a webhely meglátogatása után hirdetéseket jelenítsen meg a Facebookon vagy a Facebook-hirdetések által működtetett digitális platformon.
fr	3 hónap / 3 months	A Facebook úgy állítja be ezt a cookie-t, hogy releváns hirdetéseket jelenítsen meg a felhasználók számára azáltal, hogy nyomon követi a felhasználói viselkedést az interneten, olyan webhelyeken, amelyek Facebook pixel vagy Facebook közösségi beépülő modullal rendelkeznek.
UserMatchHistory	1 hónap / 1 month	A LinkedIn beállítja ezt a cookie-t a LinkedIn hirdetésazonosítók szinkronizálásához.
lang	munkamenet / session	A LinkedIn úgy állítja be ezt a sütit, hogy emlékezzen a felhasználó nyelvi beállítására.
bcookie	1 év / 1 year	A LinkedIn beállítja ezt a cookie-t a LinkedIn megosztási gombjaiból és hirdetési címkéiből, hogy felismerje a böngészőazonosítót.
lidc	1 nap / 1 day	A LinkedIn beállítja a lidc cookie-t, hogy megkönnyítse az adatközpont kiválasztását.
bscookie	1 nap / 1 day	A LinkedIn beállítja ezt a cookie-t a webhelyen végrehajtott műveletek tárolására.
AnalyticsSyncHistory	1 hónap/ 1 month	A LinkedIn beállítja ezt a cookie-t.
li_gc	6 hónap / 6 months	A LinkedIn beállítja ezt a cookie-t.

SAVE & ACCEPT

Blog

Miért nem tud (jól) az AI magyarul?

Hírlevél

Adatvédelmi áttekintés / Privacy Overview