Steinunn Rut Friðriksdóttir og Hafsteinn Einarsson

Stafræn samræðugreining: Greining á athugasemdum íslenskra bloggnotenda á 19 ára tímabili

Í þessu erindi verður fjallað um greiningu sem var unnin á um 800.000 athugasemdum af heimasíðunni blog.is. Ritunartími athugasemdanna spannar 19 ár eða frá 29. janúar 2005 fram til 8. júní 2024. Gögnin veita því innsýn í þróun og eðli íslensks netsamfélags og varpa ljósi á viðhorf og samskiptamynstur yfir ólík tímabil, s.s. árin fyrir og eftir efnahagshrunið. Gervigreindarlíkaninu GPT-4o mini frá OpenAI var beitt á athugasemdirnar og þær merktar samtímis í mörgum mismunandi verkefnum. Verkefnin eru af ýmsum toga en þar má meðal annars nefna lyndisgreiningu, þar sem athugasemd er merkt eftir því hvort hún telst jákvæð, neikvæð eða hlutlaus. Þá má nefna greiningu á því hvort tiltekin athugasemd innihaldi hatursorðræðu, kaldhæðni, samkennd eða alhæfingar um hópa.

Í kjölfarið var hluti athugasemdanna handyfirfarinn á vefsíðunni www.ummælagreining.is með það að markmiði að kanna hversu vel gervigreindin stendur sig í samanburði við manneskjur. Niðurstöðurnar sýna að líkanið stendur sig í flestum tilfellum vel en þó eru tiltekin verkefni þar sem manneskjur og gervigreind greinir töluvert á í merkingum sínum. Þar má helst nefna greiningu á kaldhæðni, samkennd og hrútskýringum. Gervigreindin á með öðrum orðum erfiðast með verkefni þar sem blæbrigði tungumálsins eru hárfín og fleira er gefið í skyn en sagt með beinum orðum.

Marktækur kynjamunur kom fram í verkefnum á borð við lyndisgreiningu og ritun eitraðra athugasemda. Karlkyns notendur voru að meðaltali mun neikvæðari en kvenkyns notendur og um tvöfalt líklegri til þess að skrifa eitraðar athugasemdir. Þeir voru jafnframt líklegri til þess að beita hatursorðræðu. Í erindinu verður farið ítarlega yfir þennan mun og hvernig staðhæfingar um hópa og hatursorðræða hefur þróast í samræmi við samfélagsumræðuna á þessu tímabili. Í því samhengi má til dæmis nefna uppsveiflu í staðhæfingum um múslima á tímabilinu um og eftir borgarstjórnarkosningarnar í Reykjavík 2014 þegar lóðarúthlutun til Félags múslima á Íslandi varð að einu aðalkosningamálinu. Eins má nefna greinilega uppsveiflu í staðhæfingum um hinsegin fólk á síðustu árum sem er í samræmi við umræðu um bakslag í réttindabaráttu þeirra. Þá eru áhugaverðar sveiflur í fullyrðingum um vísindamenn sem setja mætti í samhengi við heimsfaraldur covid-19.

Þessi aðferðafræði býður upp á staðlaða greiningu á miklu magni gagna með litlum kostnaði, tíma og fyrirhöfn og henni má beita á nánast hvaða texta sem er. Þrátt fyrir að greining með notkun gervigreindarlíkans sé auðvitað ekki gallalaus er því hér um nýstárlega nálgun að ræða sem býður upp á mikilvægar upplýsingar fyrir rannsakendur, stefnumótendur og almenning um eðli og þróun íslensks netsamfélags.