S-kúrfur og einstakir textar: Nokkur orð um sem og er í tilvísunarsetningum
Í þessu erindi verður fjallað um það hvernig tilvísunartengingin sem tekur við af er í íslensku ritmáli gegnum aldirnar í íslenska trjábankanum IcePaHC (Wallenberg o.fl. 2011). Einkum verður til athugunar samspilið á gögnum sem virðast mynda stærðfræðilega netta S-kúrfu í heild sinni og óreglulegra breytinga sem sjá má þegar gögn eru brotin niður í smærri einingar. Hér verður vísað í sem og er sem tilvísunartengingar en ekki tilvísunarfornöfn, sbr. Höskuld Þráinsson (1980).
Tilvísunartengingar hafa verið skoðaðar megindlega áður en Eiríkur Rögnvaldsson (1983) kannaði dreifingu tilvísunarsetninga í verkum Halldórs Laxness. Þar var raunar áherslan á að skoða dæmi þess að aðaltengingin og væri notuð sem tilvísunartenging. Sömuleiðis er vel þekkt úr sögulegri málfræði að málbreytingar fylgja gjarna S-kúrfu (t.d. Kroch 1989).
Byrjað var á því að einangra allar tilvísunarsetningar með annaðhvort sem eða er í IcePaHC með fyrirspurn sem fylgir hér að neðan. Út úr því komu 10349 tilvísunarsetningar. Þegar dreifing sem og er er skoðuð eftir öld í IcePaHC virðist við fyrstu sýn að hlutfall sem aukist á kostnað er eftir mjög reglulegri S-kúrfu eins og sjá má á grafi 1. Að vísu fellur tíðni sem örlítið á 19. öld en þetta er samt eiginlega eins regluleg kúrfa eins og hægt er að finna í náttúrulegum málgögnum og fellur því vel að fræðilegum hugmyndum um það hvernig málbreytingar breiðast út. Hér skiptir ef til vill máli að reynt var að gera þessa málheild þannig úr garði að hún væri með jafna samsetningu af svipuðum textum frá hverri öld frá 12. öld til 21. aldar. Ef við skoðum svo hvernig einstakir textar raðast á tímaásinn á grafi 2 má sjá að það eru textar merktir orrusta og hellismenn sem skýra dýfu heildartíðninnar á sem á 19. öld í þessum gögnum. Þetta er annars vegar Sagan af Heljarslóðarorrustu eftir Benedikt Gröndal og hins vegar Hellismannasaga eftir Gísla Konráðsson. Þessar sögur eru báðar skrifaðar í anda fornrita þannig að ekki kemur á óvart að þær skeri sig úr að því leyti að þær noti gjarna er í stað sem.
Einnig er áhugavert að kanna hvort við fáum út reglulega stílhliðrun (e. style shift; Labov 1972) milli textategunda í IcePaHC en fyrirfram mætti búast við því að trúartextar séu íhaldssamari en frásagnartextar og þessar textategundir má finna frá öllum tímabilum í trjábankanum. Við sjáum þó á grafi 3 að það er ekki reglulegt að trúartextar séu alltaf með lægri tíðni af sem. Einkum eru það 16. og 17. öld sem skera sig úr að því leyti að þar er sem algengara í trúartextum. Hér verður aftur að líta til einstakra texta og t.d. er Nýja testamenti Odds Gottskálkssonar með nokkuð háa tíðni sem miðað við 16. öld (66,7% í Jóhannesarguðspjalli og 61,9% í Postulasögunni).
Þessi athugun er til marks um það hversu erfitt það er að búa til málheild úr ýmsum textategundum sem endurspeglar málið almennt, textaval skiptir miklu máli.
Heimildir
Eiríkur Rögnvaldsson. 1983. „Tilvísunartengingin“ OG í bókum Halldórs Laxness. Mímir 30:8-18. Höskuldur Þráinsson. 1980. Tilvísunarfornöfn? Íslenskt mál 2:53-96.
Kroch, A. S. 1989. Reflexes of grammar in patterns of language change. Language variation and change, 1(3), 199-244.
Labov, William. 1972. Sociolinguistic patterns. University of Pennsylvania Press, Pennsylvania. Wallenberg, Joel, Anton Karl Ingason, Einar Freyr Sigurðsson and Eiríkur Rögnvaldsson. 2011.
Icelandic Parsed Historical Corpus (IcePaHC). Version 0.9.
http://www.linguist.is/icelandic_treebank
Graf 1: Hlutfall sem eftir öld í IcePaHC (N=10349)
Graf 2: Hlutfall sem eftir öld og einstökum textum í IcePaHC
Graf 3: Hlutfall sem eftir öld og textategund í IcePaHC
Fyrirspurn á treebankstudio.org:
CP-REL idoms IP-SUB CP-REL idoms C
sem:1
C idomslemma sem
sem:0
C idomslemma er
meta:
text century text genre