Bjarki Ármannsson

Mállíkön og myndun orða

Tungumálahæfni stórra mállíkana á borð við GPT, Claude, Llama o.fl. (oft nefnd gervigreind(in) í daglegu tali) hefur verið mikið til umræðu síðastliðin misseri enda hafa þau náð fordæmalausum árangri í hinum ýmsum skriflegu verkefnum sem fyrir þau hafa verið lögð. Líkönin virka langbest á ensku en eru brúkleg á flestöllum öðrum málum heimsins og íslenska er þar ekki undanskilin. Líkönin eru ólík þeim tólum sem máltæknifræðingar notuðu til textavinnslu og spurningarsvörunar fyrir ekki svo mörgum árum, að því leytinu til að þau byggja á tauganetum sem „læra“ tungumálið sem þau eru þjálfuð á út frá textabrotum sem yfirleitt eru ekki merkt, flokkuð eða mörkuð á neinn hátt. Virkni þessara líkana hefur þess vegna vakið athygli fjölmargra málfræðinga sem fást við máltöku, þar sem lengi hefur verið deilt um kenningar Chomskys um fábreytileika máláreitisins (e. Poverty of the Stimulus), þ.e. að það gagnamagn sem börn fá upp í hendurnar á máltökuskeiði sé ekki nægilegt til þess að að þau nái fullum tökum á málinu og margvíslegum reglum þess.

Í viðleitni til þess að leggja eilítið af mörkum til þessarar umræðu, verður í þessum fyrirlestri fjallað um niðurstöður tilrauna sem framkvæmdar voru á fjölda stórra mállíkana með það að markmiði að kanna bæði getu þeirra í íslensku og innra samræmi líkananna sjálfra. Sá hluti niðurstaðnanna sem tekinn verður fyrir í þessum fyrirlestri sneri að myndun samsettra orða, hæfni sem skiptir máli fyrir bæði íslenskumælandi menn og mállíkön. En hvernig má nota orðmyndun í íslensku til þess að kanna innri málkunnáttu stórra mállíkana? Samsett orð þar sem fyrra orðið hefur einhverja af endingunum –ing, –un, –uður og –ingur virðast ekki leyfa stofnsamsetningar í íslensku*. Þetta lærir hvert mannsbarn með íslensku að móðurmáli og færð verða fyrir því rök að allt það íslenska gagnamagn sem líkön dagsins í dag eru þjálfuð á beri þess eindregið vitni, þ.e. að fjöldi samsettra orðra á borð við *björgunmaður sé hverfandi. Til þess að kanna hvort þessi hér um bil algilda regla skili sér í málkunnáttu stórra mállíkana, sem varlega má áætla að séu sum þjálfuð á u.þ.b. tuttugu sinnum fleiri tókum en talið er að barn fái að heyra á máltökuskeiði, voru samsetningar með slíkum orðum prófaðar á ellefu ólíkum mállíkönum, bæði með því að láta líkönin meta hvort orð með stofnsamsetningu væru betri eða verri en orð með eignarfallssamsetningu (t.d. *hnignunlota eða hnignunarlota) og með því að láta líkönin mynda nýtt orð úr sömu orðhlutum (t.d. hnignun + lota). Reynt var eftir bestu getu að útiloka að samsettu orðin væru þegar til (í einhverri útgáfu) í þjálfunargögnum líkananna með því að búa til orð sem ekki fundust í Risamálheildinni, á Tímarit.is eða við leit á Google. Niðurstöðurnar bera þess í stuttu máli merki að ekkert líkan hafi tileinkað sér þessar reglur að fullu, þrátt fyrir að þjálfunargögnin ættu að veita ofgnótt vísbendinga um þetta mynstur í íslensku. Mörg líkön standa sig vissulega vel, þ.e. mynda oft eignarfallssamsetningar í samræmi við það sem búast mætti við að íslenskur málhafi gerði og gefa oft „rangt“ samsettu orðunum lægri einkunn, en hvert eitt og einasta gerir villur inn á milli og flakkar jafnvel á milli þess að gefa rétt og rangt svar við nákvæmlega sömu fyrirspurninni.

*) Eina undantekningin sem höfundi er kunnugt um er orðið Gyðingdómur.