Handan þáttunar og mörkunar: Næsta kynslóð málfanga
Síðustu áratugi hefur greinargóð mynd verið dregin upp af íslensku út frá ólíkum sjónarhornum málvísindanna. Eftir því sem myndin verður skýrari er mögulegt að takast á við sífellt áhugaverðari hliðar málsins.
Í fyrirlestrinum verður gefið yfirlit yfir verkefni sem eftir er að vinna fyrir íslensku. Verkefnin eiga það sammerkt að vera áhugaverð út frá málvísindalegu sjónarmiði og að geta haft í för með sér samfélagslegan ávinning, til að mynda með hagnýtingu innan máltækni.
Viðfangsefnin ná allt frá stökum málfræðiatriðum til nýrra viðfangsefna málvísinda og jafnvel yfir í kjarna þess hvernig við eigum samskipti.
Á meðal helstu áskorana er hvernig meta eigi málskilning. Dæmi um stöðluð viðmið eða mælipróf eru GLUE (General Language Understanding Evaluation, https://gluebenchmark.com/tasks) og SuperGLUE (https://super.gluebenchmark.com/). Þau innihalda prófunargögn fyrir ýmsar hliðar málskilnings fyrir ensku og smotterí fyrir önnur mál (t.d. margmála ályktun, MNLI). Sambærileg mælipróf hafa verið útfærð fyrir önnur tungumál, svo sem sænsku (https://spraakbanken.gu.se/en/resources/superlim). Á meðal verkefna eru viðhorfsgreining, umorðun, spurningasvörun, merkingarleg afleiðsla (e. entailment) og ályktun (e. natural language inference, NLI).
Bjagar (e. bias) hafa einnig hlotið mikla athygli nýverið, en í þeim felst að hópi eða hlut er gert hærra eða lægra undir höfði en ástæða er til. Ýmis raundæmi má finna um bjaga, s.s. eftirfarandi kynjabjaga í Google Translate fengið úr (Agnes Sólmundsdóttir o.fl. 2021):
- (1) I am confident ⟼ Ég er sjálfsöruggur
- (2) I am insecure ⟼ Ég er óörugg
- (3) I am clever ⟼ Ég er snjall
- (4) I am stupid ⟼ Ég er heimsk
Bæði þarf gögn til að bera kennsl á bjaga og svo til að meta þá. Kynjabjagi hefur sérstaklega verið skoðaður og einhver gagnasett eru til fyrir ensku, svo sem Winogender (Rudinger o.fl., 2018), sem hefur einnig verið útfært fyrir sænsku (Saga Hansson o.fl. 2021).
Meðhöndlun slettna, tökuorða og málvíxla (e. code-switching) tengist flestum sviðum tal- og málvinnslu, enda er ljóst að slíkt kemur fyrir í stórum hluta samskipta. Til að mynda þarf að vera hægt að lesa slík orð rétt upp, hvort sem ritun þeirra hefur verið aðlöguð íslensku hljóðkerfi eða ekki, og að ná réttri merkingu upp úr þeim. Til þess að takast á við málvíxl vantar gögn þar sem slík víxl koma fram og hafa verið merkt. Slík gagnasöfn eru til fyrir ensku og helstu víxlmál hennar (Aguilar, Kar og Solorio, 2020) en þar sem verkefnið er svo háð tungumáli skiptir miklu að útfæra slíkt sérstaklega fyrir íslensku.
Auk ofantalinna dæma um verkefni eru mýmörg önnur í deiglunni, svo sem einföldun máls, spurningasvörun, viðhorfsgreining, greining hatursorðræðu o.s.frv.
Í fyrirlestrinum felst því mikill fjársjóður fyrir rannsakendur sem vilja skoða flóknari hliðar málsins og leggja sitt af mörkum í samstarfi rannsókna og hagnýtingar í þágu samfélagsins, til að koma stuðningi við íslensku í stafrænum heimi á næsta stig.
Heimildir
- Aguilar, G., Kar, S. og Solorio, T. 2020. LinCE: A Centralized Benchmark for Linguistic Code-switching Evaluation. Proceedings of The 12th Language Resources and Evaluation Conference. ELRA. https://www.aclweb.org/anthology/2020.lrec-1.223
- Rudinger, R., Naradowsky, J., Leonard, B. og Van Durme, B. Gender Bias in Coreference Resolution. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers). Association for Computational Linguistics. https://aclanthology.org/N18-2002. doi: 10.18653/v1/N18-2002
- Saga Hansson, Konstantinos Mavromatakis, Yvonne Adesam, Gerlof Bouma og Dana Dannélls. 2021. The Swedish Winogender Dataset. Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). https://aclanthology.org/2021.nodalida-main.52
- Agnes Sólmundsdóttir, Dagbjört Guðmundsdóttir, Lilja Björk Stefánsdóttir og Anton Karl Ingason. 2021. Vondar vélþýðingar. Óbirt grein.