Agnes Sólmundsdóttir, Dagbjört Guðmundsdóttir, Lilja Björk Stefánsdóttir og Anton Karl Ingason

Vondar vélþýðingar
Um kynjahalla í íslenskum vélþýðingum

Talað er um tæknihalla (e. machine bias) þegar tölvukerfi sem þjálfuð eru á raunverulegum málgögnum fara óumbeðin að endurspegla samfélagslegan ójöfnuð á borð við kynja- og kynþáttahalla óháð ásetningi þeirra sem búa kerfin til. Þetta getur til að mynda gerst í vélþýðingarkerfum og öðrum máltæknilausnum sem byggja á málheildum. Það stafar af því að þau tileinka sér ekki aðeins mynstur og formgerð tungumálsins sem gögnin eru skrifuð á heldur einnig samfélags- og menningarleg fyrirbæri sem koma þar fram. Þetta getur haft í för með sér að tæknin viðhaldi og ýti undir ójöfnuð þvert á samtímalegar framfarir. Með sífelldri framþróun tækninnar og mikilvægi hennar innan samfélaga er nauðsynlegt að vera á varðbergi gagnvart slíkum réttlætisbresti. Tæknihalli er nú orðinn að viðfangsefni rannsókna innan ýmissa fræðasviða og er máltækni þar ekki undanskilin (sjá t.d. Bender o.fl. 2021; Prates o.fl. 2019; Danks og London 2017; Rudinger o.fl. 2018). Þannig hafa rannsóknir til dæmis sýnt að kynjahalli komi fram í vélþýðingum (Prates o.fl. 2019).

Hér verður fjallað um niðurstöður BA-ritgerðar Agnesar Sólmundsdóttur (væntanlegt) þar sem rannsókn var gerð á íslenskum þýðingum úr vélþýðingarkerfunum Google Translate og Vélþýðing.is. Markmiðið var að kanna hvort breyting hefði orðið á birtingarmynd kynjahalla í íslenskum þýðingum sem rannsókn Agnesar Sólmundsdóttur o.fl. (væntanlegt, b) sýndi fram á að væri til staðar. Því var gerður samanburður á úttaki þýðingarvélanna á nokkrum tímapunktum yfir eitt ár. Í rannsóknunum voru lýsingarorð þýdd úr kynhlutlausum setningum á ensku, þ.e. setningum þar sem kyn kemur ekki fram, yfir á íslensku þar sem málfræðilegt kyn er nauðsynlegt. Í ljós kom að vélþýðingarnar virðast enn vera nokkuð hlutdrægar þar sem það virðist háð merkingu lýsingarorðanna hvort þau fá karlkyns- eða kvenkynsbeygingu í íslenskri þýðingu. Þrátt fyrir að BA-ritgerðin leiði í ljós að einhver breyting hafi orðið á úttakinu frá niðurstöðum Agnesar Sólmundsdóttur o.fl. (væntanlegt, b) virðist mynstrið enn haldast, en frá þessu verður greint í erindinu.

Þegar lýsingarorð sem lýsa persónuleika og persónueinkennum fólks eru skoðuð kemur í ljós að þau sem hafa jákvæða merkingu eru líklegri til þess að fá karlkynsbeygingu en kvenkynsbeygingu í íslensku þýðingunni. Þetta eru orð eins og sterkur (e. strong) og snjall (e. clever). Af lýsingarorðum með neikvæða merkingu er hins vegar líklegra að kvenkynsmynd sé notuð í þýðingunni, t.d. heimsk (e. stupid) og veik (e. weak). Þessu er aftur á móti öfugt háttað með lýsingarorð sem lýsa útliti, en orð sem venjulega eru notuð til þess að lýsa útliti á jákvæðan hátt eru frekar þýdd með kvenkynsmynd en þau neikvæðu með karlkynsmynd.

Þessar niðurstöður virðast endurspegla mynstur sem samsvara ákveðnum samfélagslegum hugmyndum um kyn og kynjahlutverk, en almennt er meiri og víðtækari umræða um karlmenn í samfélaginu en konur. Sú orðræða sem beinist að konum einblínir hins vegar oft á útlit þeirra fremur en til dæmis afrek í starfi eða jákvæða eiginleika í fari þeirra. Það er skýrt að mynstrið sem kemur fram í þýðingunum endurspeglar þennan samfélagslega kynjahalla. Niðurstöðurnar sýna ótvírætt fram á mikilvægi þess að vera á varðbergi gagnvart tækninni svo hún viðhaldi ekki úreltum samfélagslegum hugmyndum — sér í lagi í hinum stafræna heimi nútímans.

Heimildaskrá

  • Agnes Sólmundsdóttir. Væntanlegt. BA-ritgerð í vinnslu.
  • Agnes Sólmundsdóttir, Dagbjört Guðmundsdóttir, Lilja Björk Stefánsdóttir og Anton Karl Ingason. 2021. Vondar vélþýðingar: Um kynjahalla í íslenskum þýðingum Google Translate. Ritið 3:177-200.
  • Bender, E., Gebru, T., McMillan-Major, A. og Shmitchell, S. 2021. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the 2021 ACM Conference on Fairness, Accountability and Transparency, 610-623. https://doi.org/10.1145/3442188.3445922.
  • Danks, D. og London, A.J. 2017. Algorithmic Bias in Autonomous Systems. Proceedings of the 26th International Joint Conference on Artificial Intelligence (IJCAI), 4691-4697. https://doi.org/10.24963/ijcai.2017/654.
  • Prates, M. O. R., Avelar, P. H. og Lamb, L. C. 2019. Assessing Gender Bias in Machine Translation: A Case Study with Google Translate. Neural Computing and Application 32:6363-6381. https://doi.org/10.1007/s00521-019-04144-6.
  • Rudinger, R., Naradowsky, J., Leonard, B. og Van Durme, B. 2018. Gender Bias in Coreference Resolution. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 2:8-14. https://doi.org/10.18653/v1/N18-2002.