Hildur Jónsdóttir

Íslensk samhliða málheild byggð á venslamálfræði

Hér er lýst gerð, setningagreiningu og prófunum á íslenskum samhliða venslatrjábanka (e. Icelandic parallel dependency treebank). Þessi trjábanki inniheldur setningafræðilega greiningu byggða á venslamálfræði en trjábankar eru nauðsynlegir bæði fyrir þróun á þátturum og setningafræðilegar rannsóknir.Trjábankar eru aðal stoðgögn fyrir þjálfun á gagnadrifnum þátturum sem eru nytsamlegir í margvísleg kerfi fyrir upplýsingatækni. Þáttari fyrir íslensku gæti t.d. stutt þróun á málrýni, spurningasvörun, þýðingarvélum, upplýsingaútdrætti og talgreiningu-/gervingu (Anna Björk Nikulásdóttir:2017).

Samhliða málheildir hafa mest verið notaðar í þjálfun á þýðingarkerfum en er einnig hægt að nota í uppbyggingu á orðabókum og skjalaflokkun á ólíkum tungumálum. Í slíkum málheildum eru þýðingar sama texta á tveimur eða fleiri tungumálum greindar og gefnar út með sambærilegum hætti.

Þessi fyrsti íslenski samhliða venslatrjábanki er til á 19 öðrum tungumálum og byggir á alþjóða verkefninu Universal Dependencies (UD) (Joakim Nivre o.fl.:2016). Rannsóknir á þvermállegum líkönum og þátturum hafa vaxið gífurlega síðan UD verkefnið var sett á laggirnar og það er vænlegt skref fyrir tungumál eins og íslensku að verða hluti af þessari alþjóðlegu rannsóknarvinnu.

Mikil vinna felst í því að búa til nýjan trjábanka og þess vegna er mikilvægt að nýta sér aðgengilegar aðferðir og hagnýt gögn. Eitt af meginverkefnum máltækniáætlunar menntamálaráðuneytisins er að smíða trjábanka og sér í lagi venslatrjábanka. Á sama tíma og þetta verkefni var unnið var unnið að vörpunartóli fyrir IcePaHC trjábankann (Eiríkur Rögnvaldsson o.fl.:2012) yfir í UD. IcePaHC er íslenskur trjábanki sem byggir á greiningarskema sem var hannað fyrir sögulega Penn trjábanka. Þar sem takmarkaðar rannsóknir hafa verið gerðar á venslamálfræði fyrir íslensku ákváðum við að stúdera UD skemað með því að vinna lítinn trjábanka frá grunni. Hóparnir tveir unnu svo saman að sameiginlegu UD greiningarskema fyrir íslensku. Það hefur verið sýnt fram á að trjábankar sem hefur verið varpað, innihalda ekki sjaldgæfar samsetningar sem upprunalegir trjábankar hafa (Peng:2018) þannig að þessi vinna gæti verið gagnleg í þróun á sameiginlega skemanu. Við prófum aðferð til að forvinna setningafræðileg vensl með því að nota aflexíkalíserað (e. delexicalized) líkan byggt á skyldum tungumálum.

Samhliða málheildin sem um ræðir inniheldur 1.000 setningar úr dagblaðagreinum og Wikipedia en þessar textategundir er ekki að finna í IcePaHC. Í erindinu fjöllum við um aðferðina við að smíða hinn íslenska PUD ásamt aðalatriðum í greiningarskemanu og mælingum á nákvæmni. Við byrjum með hráan enskan texta sem er þýddur og fer svo í gegnum tókara, markara, lemmara, vörpun yfir í CoNLL-U snið, forvinnslu á setningafræðilegri greiningu með aflexíkalíseruðu líkani og að lokum handleiðréttingu og prófanir.

Forvinnslan á setningagreiningunni gaf 70-80% nákvæmni og flýtti mikið fyrir handleiðréttingunni. Þótt þessi málheild sé lítil þá er hún ágætis byrjun á vegferð okkar til UD, fyrir prófanir og frekari þróun á íslenskri venslamálfræði og þáttun.

Heimildir

  • Anna Björk Nikulásdóttir, Jón Guðnason, and Steinþór Steingrímsson. 2017. Máltækni fyrir íslensku 2018-2022. Verkáætlun. Technical report, Mennta- og menningarmálaráðuneytið, Reykjavík.
  • Nivre, J., de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajic, J., Manning, C. D., McDonald, R., Petrov, S., Pyysalo, S., Silveira, N., Tsarfaty, R., and Zeman, D. (2016). Universal dependencies v1: A multilingual treebank collection. In Nicoletta Calzolari (Conference Chair), et al., editors, Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), pages 1659–1666, Paris, France. European Language Resources Association (ELRA).
  • Peng, S. and Zeldes, A. (2018). All roads lead to UD: Converting stanford and penn parses to english universal dependencies with multilayer annotations. In Agata Savary, et al., editors, Proceedings of the Joint Workshop on Linguistic Annotation, Multiword Expressions and Constructions (LAW-MWE-CxG-2018), pages 167–177, Santa Fe, New Mexico, USA. Association for Computational Linguistics.
  • Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson, and Joel Wallenberg. (2012). The Icelandic Parsed Historical Corpus (IcePaHC). In Nicoletta Calzolari (Conference Chair), Khalid Choukri, Thierry Declerck, Mehmet Ugur Dogan, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk, and Stelios Piperidis, editors, Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012), pages 1977–1984, Istanbul, Turkey, 2012. European Languages Resources Association (ELRA). URL http://www.lrecconf.org/proceedings/lrec2012/pdf/440_Paper.pdf