Az amerikai Vox április közepi videója pont azt a kérdést tette fel, hogy amikor bármilyen nyelvet megtanulhatna egy AI, vajon megfelelően elsajátítja-e mindegyiket? Az elmúlt hetekben-hónapokban mi a Crane-nél is rengeteget foglalkoztunk az AI hírekkel, és egy egész sorozatban is összefoglaltuk, hogy mit látunk a marketinges alkalmazhatóságával kapcsolatban. De ezeket az eszközöket próbálgatva nagyon gyorsan belefutottunk abba, hogy kis piacként, a világ egyik legnehezebben tanulható nyelvével ritkán kapunk vissza olyan szöveget vagy fordítást, ami, ha nem is teljesen használhatatlan, nem igényel komolyabb utómunkát egy szövegírótól. Mi áll ennek a hátterében? Phil Edwards, a Vox senior video producere a Common Crawlhoz vezette vissza a problémát.
Mi az a Common Crawl és miért érdekes nekünk? A Common Crawl Alapítvány egy kaliforniai székhelyű nonprofit szervezet, ők viszik azt a hatalmas webarchiváló projektet, ami 2008 óta ingyenesen letölthető és kutatható adathalmazokat szolgáltat bárkinek, aki kutatási, oktatási vagy akár üzleti célra használni akarja azt. Saját fejlesztésű crawler botjuk évente többször végigjárja a teljes nyilvános webet, és mindent indexel. És kihasználja – többek között – a Common Crawlt a legnagyobb forrásaként? Az OpenAI, ChatGPT és DALL-E-fejlesztője.
Arról, hogy milyen adatforrásokból tanult a jelenlegi modell, a GPT-4, nincs nyilvános adat, és a GPT-3 forrásait se veri nagy dobra az OpenAI, de ebben a tudományos publikációban megtaláljuk a választ.
Ebben a tréning mixben a Common Crawl adta az adatok 60%-át – azon belül is egy 2016 és 2019. közötti, eredetileg 45 terabájtnyi adag, ami aztán tovább szűrtek egy mindössze 570 gigás csomagra. A WebText 2 olyan weboldalak szövege, amiket legalább 3 upvote-tal rendelkező Reddit posztban linkelt valaki, de ez már sokkal kevesebbet nyom a latba, csak 22%-ot. A további források pedig még kevésbé jelentősek súlyban, de a két online elérhető könyvkorpusz van még az adatszettben, és utolsó helyen a Wikipedia is befigyel (azon belül is az angol nyelvű oldalak).
A GPT-2 és a GPT-3 alapvetően ugyanakkora adatszetten tanult, csak a 2 még „csak” 1,5 milliárd paraméterrel dolgozott, míg a 3 már 175 milliárddal, így komplexebb mintázatokat is fel tudott ismerni az adatok között és magában a nyelvhasználatban is. Ezáltal pedig a modell az emberek adta inputot is jobban megérti és a válaszai is jobban hasonlítanak egy emberi válaszra. A nagy nyelvi modellek tehát arrafelé haladnak, hogy a több adat nem feltétlenül jobb, amíg az adatszett jó minőségű és nagyobb, több paraméterrel dolgozó modellt engednek rá. De mi a helyzet, ha az adatszett döntő többségben egyetlen nyelvből építkezik?
Ez itt az utolsó elemzett Common Crawlban (2023. március-április) indexelt HMTL oldalak nyelveinél az első 25 helyezett.
Az angol toronymagasan vezet, a vizsgált oldalak majdnem fele angol nyelvű volt, még ha tavaly november-decemberi crawl óta március-áprilisra 0,13%-ot csökkent is az angol oldalak súlya. A magyar nyelv a listán a 20., ami ahhoz képest, hogy a lakosság mérete alapján a világon a 94., területre 110., a legtöbbek által beszélt nyelvek alapján pedig 92. helyen vagyunk, meglepően komoly súlyt ad nekünk; de az összes vizsgált lapnak ez így is csak a 0,61%-a.
De végül is a Common Crawl „csak” 60% volt, a teljes adatszettet vizsgálva csak kiegyensúlyozottabb a helyzet, nem? Hát, nem éppen. Az OpenAI saját GitHub GTP-3 archívumának elemzése alapján így áll a modell az adatszettben használt szavak nyelve alapján:
Majdnem 93% angol, 0,065% magyar… És igen, lehet, hogy nem csak az adatmennyiség számít, nagyon fontosak azok a paraméterek. Elvégre a magyar szövegek, amit mondjuk egy ChatGPT-től látunk, nem boraszatóak, csak nem is élnek meg egy szövegíró nélkül. Ez a 127 millió magyar szó láthatóan kevés a modellnek ahhoz, hogy igazán elsajátíthassa a nyelvet.
Ennél is szomorúbb adat, hogy globálisan körülbelül 7000 (!) nyelvet beszélünk, és ebből mindössze 20 adja a természetes nyelvek feldolgozásával (Natural Language Processing, vagy NLP) foglalkozó kutatások döntő többségének fókuszát. Érdemes megnézni a Vox videót, ahol három kutatóval is beszélgetnek, akik olyan új adatszetteket próbálnak létrehozni, amik választ jelenthetnek erre a problémára olyan elhanyagolt, kevés forrással nyelvek rendelkező esetében, mint a jamaicai kreol vagy a katalán. Vagy épp egy üresben álló francia szuperszámítógéppel egy open source, 46 természetes nyelvet (köztük sok hagyományosan kisebb digitális lábnyommal bíró afrikai nyelvet) és 13 programozási nyelvet tartalmazó nagy nyelvi modellt alkotnak, mint a Bloom.
A magyar nincs köztük, de akkor mire számíthatunk itthon? Megbízható nyelvmodellt készíteni Magyarországon nem kis falat, és az, hogy jelenleg nincs ilyenünk, elsősorban nem a szándék, hanem az anyagi keret és a modell betanításához szükséges korpusz hiányára vezethető vissza. Jó hír azonban, hogy a GPT-k fejlesztéséhez felhasznált nyelvi korpuszhoz hasonló, bár annál jóval kisebb szöveggyűjtemény összeállításán dolgozik az ELTE Digitális Bölcsészet Tanszékének és a Digitális Örökség Nemzeti Laboratórium (DH-Lab) közös kutatócsoportja. A fejlesztők április végén adtak interjút a Qubitnek, ahol mesélnek a külső finanszírozás szerepéről, hogy mekkorát kell küzdeni minden digitálisan fellelhető jó minőségű forrásért a szépirodalmi művektől a szakdolgozatokig, vagy éppen hogy mi fán terem egy digitális bölcsész. A konkrét betanítási folyamat, maga a modellépítés idén nyáron kezdődhet, de a stabil és megbízható viselkedéséhez elengedhetetlen lesz majd a finomhangolás is. Még arra is van módszerük, amikor a modell következetesen ront, elfogadhatatlan (például rasszista) megnyilvánulásokkal válaszol. Mi lesz az eredmény? Mi biztosan kíváncsian várjuk!
Ez a weboldal sütik segítségével javítja az Ön élményét, miközben Ön a weblapon navigál. Ezek közül a sütik közül a szükséges kategóriába sorolt sütik az Ön böngészőjében tárolódnak, mivel nélkülözhetetlenek a weboldal alapvető funkcióinak működéséhez...
Ez a weboldal sütik segítségével javítja az Ön élményét, miközben Ön a weblapon navigál. Ezek közül a sütik közül a szükséges kategóriába sorolt sütik az Ön böngészőjében tárolódnak, mivel nélkülözhetetlenek a weboldal alapvető funkcióinak működéséhez. Ezenkívül harmadik féltől származó sütiket is használunk, amelyek segítenek nekünk elemezni és megérteni, hogyan használja ezt a weboldalt. Ezeket a sütiket csak az Ön hozzájárulásával tárolja az Ön böngészőjében. Önnek lehetősége van ezeknek a sütiknek a letiltására is. Ezeknek a sütiknek a letiltása azonban hatással lehet a böngészési élményre.
>> Sütikezelési Szabályzatunkat ezen a linken érheti el
This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
>> You can access our cookie policy at this link
A szükséges sütik nélkülözhetetlenek a webhely megfelelő működéséhez. Ez a kategória csak azokat a sütiket tartalmazza, amelyek biztosítják a weboldal alapvető funkcióit és biztonsági jellemzőit. Ezek a sütik nem tárolnak semmilyen személyes információt.
Süti / Cookie | Időtartam / Duration | Leírás / Description |
---|---|---|
_ga_Q8D89SHQ21 | 2 év / 2 years | Ezt a sütit a Google Analytics telepítette. |
_ga | 2 év / 2 years | A Google Analytics által telepített _ga cookie kiszámítja a látogatói, munkamenet- és kampányadatokat, valamint nyomon követi a webhelyhasználatot a webhely analitikai jelentéséhez. A süti névtelenül tárolja az információkat, és véletlenszerűen generált számot rendel hozzá az egyedi látogatók felismeréséhez. |
_gid | 1 nap / 1 day | A Google Analytics által telepített _gid cookie információkat tárol arról, hogy a látogatók hogyan használják a webhelyet, miközben analitikai jelentést is készít a webhely teljesítményéről. Az összegyűjtött adatok egy része magában foglalja a látogatók számát, azok forrását és az általuk névtelenül felkeresett oldalakat. |
_gat_gtag_UA_10895955_26 | 1 perc / 1 minute | A Google a felhasználók megkülönböztetésére állította be. |
_hjFirstSeen | 30 perc / 30 minutes | A Hotjar beállítja ezt a cookie-t, hogy azonosítsa az új felhasználó első munkamenetét. Igaz/hamis értéket tárol, jelezve, hogy Hotjar először látta-e ezt a felhasználót. |
_hjIncludedInSessionSample | 2 perc / 2 minutes | A Hotjar beállítja ezt a cookie-t, hogy megtudja, hogy egy felhasználó benne van-e a webhely napi munkamenet-korlátja által meghatározott adatmintában. |
_hjIncludedInPageviewSample | 2 perc / 2 minutes | A Hotjar beállítja ezt a cookie-t, hogy megtudja, hogy egy felhasználó szerepel-e a webhely oldalmegtekintési korlátja által meghatározott adatmintavételben. |
_hjAbsoluteSessionInProgress | 30 perc / 30 minutes | A Hotjar beállítja ezt a cookie-t a felhasználó első oldalmegtekintési munkamenetének észlelésére. Ez a cookie által beállított igaz/hamis jelző. |
_hjSessionUser_3056214 | 1 év / 1 year | A Hotjar beállítja ezt a sütit. |
_hjSession_3056214 | 30 perc / 30 minutes | A Hotjar beállítja ezt a sütit. |
Süti / Cookie | Időtartam / Duration | Leírás / Description |
---|---|---|
_fbp | 3 hónap / 3 months | Ezt a cookie-t a Facebook úgy állította be, hogy a webhely meglátogatása után hirdetéseket jelenítsen meg a Facebookon vagy a Facebook-hirdetések által működtetett digitális platformon. |
fr | 3 hónap / 3 months | A Facebook úgy állítja be ezt a cookie-t, hogy releváns hirdetéseket jelenítsen meg a felhasználók számára azáltal, hogy nyomon követi a felhasználói viselkedést az interneten, olyan webhelyeken, amelyek Facebook pixel vagy Facebook közösségi beépülő modullal rendelkeznek. |
UserMatchHistory | 1 hónap / 1 month | A LinkedIn beállítja ezt a cookie-t a LinkedIn hirdetésazonosítók szinkronizálásához. |
lang | munkamenet / session | A LinkedIn úgy állítja be ezt a sütit, hogy emlékezzen a felhasználó nyelvi beállítására. |
bcookie | 1 év / 1 year | A LinkedIn beállítja ezt a cookie-t a LinkedIn megosztási gombjaiból és hirdetési címkéiből, hogy felismerje a böngészőazonosítót. |
lidc | 1 nap / 1 day | A LinkedIn beállítja a lidc cookie-t, hogy megkönnyítse az adatközpont kiválasztását. |
bscookie | 1 nap / 1 day | A LinkedIn beállítja ezt a cookie-t a webhelyen végrehajtott műveletek tárolására. |
AnalyticsSyncHistory | 1 hónap/ 1 month | A LinkedIn beállítja ezt a cookie-t. |
li_gc | 6 hónap / 6 months | A LinkedIn beállítja ezt a cookie-t. |