Eiríkur Rögnvaldsson 

Orðstöðulykill Íslendinga sagna

1. Verklýsing

Vinna við Orðstöðulykil Íslendinga sagna hófst á útmánuðum 1989.1 Hér er um að ræða alla þá texta sem prentaðir eru í útgáfu Svarts á hvítu (1985-6/1987), að frátöldum Íslendinga þáttum og vísum. Alls eru þetta 2079 blaðsíður, en lesmálsorð í textanum eru um 885 þúsund. Verkið er unnið þannig að öllum textunum er steypt saman í eina skrá (sem er tæplega 5 megabæti að stærð).2 Síðan er sérstakt forrit (Word Cruncher frá Electronic Text Corporation í Utah) látið skrifa í textaskrá (ASCII-skrá) öll dæmi um hverja orðmynd, með u.þ.b. 40 bókstafa umhverfi í hvora átt og tilvísun í sögu, kafla og blaðsíðu. Brot úr slíkri skrá er sýnt á mynd 1.

Síðan er textaskráin tekin inn í WordPerfect-ritvinnsluforritið og búin undir lemmun. Í því felst m.a. að flettiorðið er feitletrað og dæmum um hverja orðmynd er raðað í stafrófsröð þess sem á eftir kemur. Að þessu loknu lítur búturinn út eins og á mynd 2.

Fram að þessu hefur vinnslan verið að mestu vélræn, en nú tekur við handavinnan: sjálf lemmunin. Í henni felst það að steypt er saman öllum beygingarmyndum sama orðs, og samhljóða orðmyndir sem tilheyra mismunandi flettiorðum (lexemum) eru greindar sundur, auk þess sem dæmin eru öll greind í orðflokka. Þetta er gífurlega mikil vinna, og ekki alltaf auðveld, því að oft leikur vafi á því hvernig greina skuli einstakar orðmyndir (hvar mörkin liggi milli lýsingarorða og atviksorða, hvenær greina beri stirðnuð föll nafnorða sem atviksorð o.s.frv.). Búturinn sem áður var tekinn sem dæmi lítur að lokinni lemmun út eins og á mynd 3.

Síðan er skráin prentuð á geislaprentara, og við tekur prófarkalestur, sem er mjög tímafrekur, enda hefur verið reynt að vanda til hans svo sem kostur er. Sú greining sem unnin var við lemmunina og áður er lýst er öll endurskoðuð, og stuðst við tiltækar fornmáls- og nútímamálsorðabækur.

 

Mynd 1

 

 

 

 

 

 

 

 

 

 

 

 

Mynd 2

 

 

 

 

Mynd 3

 

Hér koma upp ótal vafaatriði sem leysa þarf úr. Hvernig á að fara með tvímyndir (t.d. aðfangadagur/affangadagur, -igur/ -ugur, öx/öxi/exi, o.s.frv.)? Hvernig á að fara að þegar aukafallsmynd getur tilheyrt tveim uppflettimyndum (t.d. afturgöngum, en bæði er til afturganga kv. og afturgangur kk.)? Á að flokka lýsingarhætti undir sagnir, lýsingarorð eða hafa þá sér? Á að gefa upp (búa til) nefnifall eintölu af nafnorðum sem aðeins koma fyrir í fleirtölu eða aukafalli?

Þetta er aðeins brot af þeim vandamálum sem leysa þarf úr. Oft er ómögulegt að leysa þau svo að ótvírætt sé; en reynt hefur verið að koma upp skýrum vinnureglum þannig að væntanlegir notendur geti auðveldlega áttað sig á því við hvað er miðað.

  

2. Hlutfallsleg tíðni orðflokka

Nú er lemmun lokið, þannig að hægt er að gera sér grein fyrir orðaforða sagnanna. Hér gefst einnig gott tækifæri til samanburðar við nútímaíslensku, vegna þess að hjá Orðabók Háskólans er um þessar mundir unnið að tíðniorðabók yfir íslenskt nútímamál. Niðurstöður úr frumkönnun vegna þeirrar bókar birtust í grein Friðriks Magnússonar (1988) í Orði og tungu. Þær eru hafðar hér til samanburðar, en miklu marktækari samanburður verður mögulegur þegar tíðniorðabókinni verður lokið. En lítum nú á töflu þar sem borin er saman hlutfallsleg tíðni einstakra orðflokka í Íslendinga sögum og nútímamáli:3

 

Tafla 1: Hlutfall orðflokka í Íslendinga sögum og nútímamáli (%)

 

1 2 3 4 5

Ísl. OH Ísl. OH Ísl.

orð orð les- les- með

máls- máls- sér-

orð orð nöfnum

 

No: 58,34 56,94 15,63 25,22 28,25

So: 11,58 12,17 27,09 19,20 22,95

Lo: 22,81 16,69 4,26 6,68 3,61

Ao: 5,65 7,30 23,13 22,29 19,60

Fn: 0,42 0,54 12,64 12,09 10,71

St: 0,16 0,47 15,18 12,17 12,86

To: 0,26 5,01 0,84 2,01 0,71

 

Í fremsta dálknum er sýnt hlutfall orða af hverjum orðflokki í Íslendinga sögum. Heildarfjöldi orða í textunum - fyrir utan sérnöfn - er tæplega 12500. Þar af eru nafnorð langflest, eða um 7300 alls; lýsingarorðin eru næstflest, um 2850; þá koma sagnir, um 1450; og atviksorð, um 700. Hér ber þess að geta að forsetningar eru flokkaðar með atviksorðum, eins og gert er í tíðnikönnun Orðabókar Háskólans. Lokuðu orðflokkarnir, fornöfn, samtengingar og töluorð, eru svo þarna langt fyrir neðan. Nauðsynlegt er að benda á það hér, að manna- og staðanöfn eru ekki með í orðstöðulyklinum, heldur er ætlunin að gera sérstaka skrá um þau. Væru þau með myndi hlutfall nafnorða að sjálfsögðu hækka hér töluvert.

Í næsta (2.) dálki eru birtar sambærilegar hlutfallstölur úr könnun Orðabókar Háskólans á orðtíðni í nútímamáli. Það vekur athygli hve hlutföllin eru ótrúlega lík í þessum tveim dálkum. Þannig eru nafnorð 58,34% heildarorðaforðans í Íslendinga sögum, en 56,94% í nútímamáli; sagnir eru 11,58% orðaforðans í Íslendinga sögum, en 12,17% í nútímamáli; o.s.frv. Helst er munur á lýsingarorðum; þau eru 22,81% orðaforðans í Íslendinga sögum, en 16,69% í nútímamáli. Einnig er mikill munur á töluorðum, en þau eru svo fá að naumast er ástæða til að leggja út af honum; þó kemur manni ekki á óvart að fleiri töluorða sé þörf í talnaþjóðfélagi nútímans.

Í næsta (3.) dálki er sýnt hlutfall lesmálsorða af hverjum flokki í textanum; þ.e., hversu oft orðmyndir sem tilheyra hverjum flokki koma fyrir. Þar er myndin öll önnur. Sagnirnar eru þar efstar, með u.þ.b 27% eða rúm 200 þúsund dæmi, og næst koma atviksorð með rúm 23% eða ríflega 170 þúsund dæmi. Rétt er að minna á að þar eru forsetningar inni í, og meginhluti dæmanna er frá þeim. Nafnorð og samtengingar eru svo á svipuðu róli; milli 110 og 120 þúsund dæmi um hvorn flokk. Fornöfnin koma ekki langt fyrir neðan, með um 95 þúsund dæmi; en sá flokkur sem hefur næstflest mismunandi orð, lýsingarorðin, er með næstfæst dæmi í texta; rúm 30 þúsund. Töluorðin eru svo langneðst.

Í næsta (4.) dálki koma sambærilegar tölur fyrir nútímamál, úr könnun Orðabókar Háskólans. Séu þessir tveir dálkar bornir saman virðist í fljótu bragði vera mikill munur á, einkum á nafnorðunum; en þá ber þess að gæta að sérnöfn eru með í nútímamálskönnuninni, en ekki í tölunum um Íslendinga sögur, eins og áður sagði. Þess vegna er eðlilegra að bera saman 4. og 5. dálk en 3. og 4. Í þeim 5. hefur áætluðum fjölda dæma um sérnöfn verið bætt við tölu lesmálsorðanna. Þótt enn hafi ekki verið gerð nákvæm skrá um þau er einfalt að gera þetta með því að leggja saman heildardæmafjöldann sem orðstöðulykillinn nær yfir, tæp 750 þúsund, og draga þá tölu frá heildarorðafjölda textanna, 885 þúsund. Þá fást hlutfallstölurnar í 5. dálki.

Ef þær eru bornar saman við nútímamálstölurnar í þeim 4. koma enn í ljós mikil líkindi. Mesti munurinn er á sagnorðum og lýsingarorðum. Hann skýrist þó að talsverðu leyti af því að í könnun Orðabókar Háskólans er lýsingarháttur þátíðar ýmist greindur sem lýsingarorð eða sagnmynd, eftir setningafræðilegri stöðu. Við höfum hins vegar ævinlega greint hann sem sagnmynd, ef viðeigandi sögn kemur fyrir. Ef hann væri greindur sem lýsingarorð þar sem setningafræðileg staða gefur tilefni til þess myndi hlutfall lýsingarorða hækka talsvert en hlutfall sagna lækka að sama skapi; og hvorttveggja færði tölurnar í átt til nútímamálstalnanna.

Ekki verður annað sagt en þessar tölur sýni ótrúlegan stöðugleika málsins; bæði hlutfall mismunandi orða og lesmálsorða í hverjum flokki er mjög svipað. Þó vitum við um ýmsar breytingar sem búast hefði mátt við að breyttu þessum hlutföllum. Þar má nefna uppkomu sagnasambanda eins og vera að gera eitthvað og vera búinn að gera eitthvað; að óreyndu hefði mátt ætla að þau yllu hækkuðu hlutfalli sagna í lesmálsorðum. E.t.v. hafa einhverjar aðrar breytingar orðið til þess að vinna þar á móti; en einnig er nær öruggt að þessi umræddu sambönd eru mun fátíðari í nútíma ritmáli en í talmálinu.

 

3. Algengustu orð í Íslendinga sögum

Þegar athugað er hver séu algengustu orðin í Íslendinga sögum, og það borið saman við nútímamál, kemur í ljós að flest orðin eru þau sömu, þótt innbyrðis röð þeirra hafi breyst nokkuð. Þetta er sýnt hér í töflu 2; OH táknar röð orðanna í tíðnikönnun Orðabókar Háskólans.

 

 

Tafla 2: Algengustu orð í Íslendinga sögum

 

Orð Orðfl. OH

1 og st 2

2 hann fn 7

3 vera so 1

4 að st 3

5 það fn 6

6 eg fn 9

7 í fs 4

8 til fs13

9 en st12

10 á fs 5

11 hafa so10

12 þú fn35

13 þá ao40

14 maður kk29

15 segja so30

16 þar ao27

17 koma so25

18 fara so44

19 nú ao51

20 um fs11

21 við fs14

22 eigi ao--

23 með fs20

24 svo ao36

25 sinn fn39

26 hún fn18

27 fyrir fs23

28 mæla so--

29 sem st 8

30 þessi fn16

31 vilja so--

32 er st--

33 af fs19

34 taka so48

35 allur fn32

36 munu so--

37 ganga so--

38 mikill lo43

39 kveða so--

40 gera so42

41 sá fn17

42 verða so22

43 sig fn24

44 þykja so--

45 ekki ao15

46 eftir fs41

47 hinn fn/gr --

48 vel ao--

49 hver fn47

50 upp ao61

Séu einstakir orðflokkar bornir saman við nútímamál verður niðurstaðan talsvert mismunandi, eins og tafla 3 sýnir:

 

Tafla 3: Algengustu orð í fjórum stærstu orðflokkunum

 

nafnorð lýsingarorð sagnir atviksorð

 

1 maður 2 1 mikill 1 1 vera 1 1 í 1

2 konungur -- 2 margur 2 2 hafa 2 2 til 4

3 skip -- 3 góður 6 3 segja 5 3 á 2

4 mál 11 4 lítill 3 4 koma 4 4 þá14

5 son[ur] -- 5 illur -- 5 fara 9 5 þar11

6 hönd -- 6 sannur -- 6 mæla -- 6 nú17

7 fé -- 7 fár 29 7 vilja 34 7 um 3

8 bróðir -- 8 vís 24 8 taka 11 8 við 5

9 land 8 9 stór 7 9 munu 21 9 eigi--

10 dagur 17 10 dauður -- 10 ganga 24 10 með 8

11 kona 6 11 langur 25 11 kveða -- 11 svo13

12 frændi -- 12 kyrr -- 12 gera 8 12 fyrir10

13 jarl -- 13 sterkur -- 13 verða 3 13 af 7

14 faðir -- 14 ungur 9 14 þykja 35 14 ekki 6

15 ferð -- 15 gamall 4 15 láta 22 15 eftir15

16 sumar -- 16 sár -- 16 eiga 6 16 vel37

17 dóttir -- 17 hálfur -- 17 heita -- 17 upp19

18 þing -- 18 vanur -- 18 búa 32 18 síðan--

19 hestur -- 19 vænn -- 19 ríða -- 19 þó23

20 orð 25 20 verður -- 20 skulu 15 20 heim--

21 nótt -- 21 líkur -- 21 svara -- 21 út21

22 fundur -- 22 vitur -- 22 spyrja 27 22 frá12

23 lið -- 23 harður -- 23 biðja -- 23 hér18

24 bær -- 24 heill -- 24 fá 12 24 þegar--

25 bóndi -- 25 miður -- 25 ætla -- 25 mjög46

26 hluti/-ur -- 26 fyrstur -- 26 vita 16 26 úr16

27 sverð -- 27 sekur -- 27 leggja 23 27 fram22

28 sök -- 28 laus -- 28 bera 30 28 fyrr35

29 bú -- 29 fyrri 13 29 gefa 20 29 yfir26

30 höfuð -- 30 vinsæll -- 30 finna 17 30 áður27

31 móðir -- 31 skyldur -- 31 sjá 10 31 saman43

32 víg -- 32 fullur 31 32 mega 14 32 inn38

33 vin[ur] -- 33 næstur -- 33 standa 19 33 undir31

34 leið 27 34 var -- 34 sitja -- 34 heldur--

35 vopn -- 35 fagur -- 35 bjóða -- 35 enn40

36 sinn 23 36 réttur 17 36 hlaupa -- 36 niður32

37 morgunn -- 37 fjölmennur -- 37 halda 17 37 ofan--

38 kveld -- 38 fríður -- 38 kalla -- 38 aftur42

39 hús -- 39 þungur -- 39 falla -- 39 brott--

40 fótur -- 40 kunnugur -- 40 skilja -- 40 hjá24

41 spjót -- 41 reiður -- 41 setja 32 41 lengi50

42 sveinn -- 42 líklegur -- 42 drepa -- 42 hversu--

43 vor -- 43 auðigur -- 43 liggja 27 43 þangað--

44 kostur -- 44 ríkur -- 44 leita -- 44 milli33

45 skjöldur -- 45 þvílíkur -- 45 veita -- 45 utan--

46 vegur 18 46 sáttur -- 46 sækja -- 46 aldrei41

47 bak -- 47 ágætur -- 47 höggva -- 47 illa--

48 staður 16 48 staddur -- 48 tala -- 48 undan--

49 vetur -- 49 feginn -- 49 senda -- 49 móti--

50 húskarl -- 50 ærinn -- 50 geta 7 50 hvar-

 

Aðeins 11 af algengustu nafnorðunum í Íslendinga sögum komast í hóp 38 algengustu nafnorða í könnun Orðabókarinnar. Þess ber þó að geta að nafnorðanotkun er að sjálfsögðu mjög háð efni þess texta sem skoðaður er, og ef bornir væru saman einhverjir tveir nútímamálstextar um mismunandi efni er alls óvíst að meira yrði þar sameiginlegt. En það er gaman að sjá hvaða nafnorð eru þarna algengust. maður er langefst, sem varla kemur á óvart, en ég veit ekki hvort menn hafa átt von á að konungur og skip kæmu næst. Mörg skyldleikaorð eru á skránni; sonur, bróðir, frændi, faðir, dóttir, móðir. Þarna eru einnig líkamshlutar; hönd, höfuð, fótur. Árstíðirnar eru þarna, og tímar sólarhringsins; dagur, sumar, nótt, morgunn, kveld, vor, vetur. Þá eru þarna vopn og verjur, og önnur orð sem tengjast vígaferlum; sverð, spjót, skjöldur; sök, lið, víg.

Þá eru það lýsingarorðin, þar sem sömu orð eru í efstu sætunum í Íslendinga sögum og nútímamáli; það eru lýsingarorð almennrar merkingar: mikill, margur, góður, lítill. Að öðru leyti eru álíka fá sameiginleg orð með nútímamálinu og var í nafnorðunum. Hér eru áberandi orð sem notuð eru í mannlýsingum; sterkur, ungur, gamall, vænn, vitur, vinsæll, fríður, auðigur, ríkur, ágætur o.s.frv.

Þegar sagnirnar eru skoðaðar gjörbreytist myndin. Þar er mjög mikið sameiginlegt; sömu sagnir í tveim efstu sætunum, og röðin að öðru leyti ótrúlega lík, þótt vissulega hafi talsverðar breytingar orðið. Auk hjálparsagna eru þarna áberandi sagnir sem vísa til samtala; segja, mæla, kveða, svara, spyrja, tala. Einnig sagnir sem vísa til ferða manna og hreyfinga; koma, fara, ganga, ríða, standa, sitja, hlaupa. Þá eru sagnir sem tengjast vígaferlum, eins og falla, drepa, veita, sækja, höggva. Helstu breytingarnar sem þarna koma fram eru að sagnirnar mæla og kveða detta út; og hjálparsagnir eins og verða, eiga og geta hækka í röðinni í nútímamáli.

Að lokum eru það atviksorð og forsetningar. Þar eru ekki miklar breytingar, en þó hefur neitunarorðið eigi alveg fallið út. Einnig má benda á að forsetningarnar í og til eru u.þ.b. jafnalgengar í fornmáli; en í nútímamáli er í tvisvar til þrisvar sinnum algengari en til. í hefur líka mikla yfirburði yfir aðrar forsetningar í nútímamáli, en til er komið niður fyrir á, og til jafns við við og um.

 

4. Framhaldsrannsóknir

Hér hefur aðeins verið drepið á örfá atriði sem hægt er að kanna með hjálp orðstöðulykilsins. Við munum á næstunni vinna að ýmiss konar tíðniathugunum í framhaldi af þeim sem hér eru birtar. Þar á meðal eru athuganir á tíðni einstakra gilda málfræðilegra formdeilda, s.s. tíðni falla, hátta o.s.frv.; og athuganir á tíðni einstakra forskeyta og viðskeyta.

Nú er hafin vinna við Orðabók um Íslendinga sögur, en orðstöðulykillinn verður aðalundirstaða þess verks. Þegar hefur komið í ljós hversu gífurlegur munur það er að semja orðabókarlýsingu út frá dæmasafni af þessu tagi; hægt er að átta sig mun betur á notkun orða, merkingarblæbrigðum, setningarstöðu o.s.frv. en mögulegt væri ef lýsingin byggðist á tilviljanakenndri orðtöku.

Þá er einnig hafin viðamikil könnun á setningafræði fornra frásagnartexta, sem byggist einkum á orðstöðulykli Íslendinga sagna, svo og orðstöðulykli Sturlungu, sem er í undirbúningi. Gerðar hafa verið tilraunir sem sýna að með hjálp orðstöðulykilsins er hægt að kanna á stuttum tíma ýmis atriði sem áður voru margfalt tímafrekari (sjá Eirík Rögnvaldsson 1990, Kristínu Bjarnadóttur 1990). Einnig hefur orðstöðulykillinn þegar komið að góðu gagni í kennslu.

Ótalin eru svo þau not sem fræðimenn og áhugamenn á ýmsum öðrum sviðum hafa af orðstöðulyklinum. Þegar hafa ýmsir fengið aðgang að honum til dæmasöfnunar; einkum bókmenntafræðingar, en einnig sagnfræðingar og áhugamenn um einstök atriði (s.s. glímu og refi, svo að eitthvað sé nefnt). Fullvíst er að á næstu árum eiga menn eftir að sjá sitthvað í nýju ljósi fyrir atbeina orðstöðulykilsins, og við vonum að hann geti orðið undirstaða frjórra hugmynda og traustra rannsókna á máli og menningu Íslendinga að fornu.4

 

Aftanmálsgreinar

1. Örnólfur Thorsson bjó hinn tölvutæka texta undir framhaldsvinnslu með aðstoð Stefáns Briem. Eiríkur Rögnvaldsson hefur séð um lemmun textans, en að prófarkalestri hafa einkum unnið Bergljót Kristjánsdóttir og Guðrún Ingólfsdóttir, og auk þeirra Bragi Halldórsson og Jón Torfason.

2. Sjá einnig hliðstæða verklýsingu í grein Eiríks Rögnvaldssonar og Örnólfs Thorssonar (1989) í Saga News.

3. Vegna þess að enn er eftir að færa inn leiðréttingar sem gerðar hafa verið við prófarkalestur eru þessar tölur ekki alveg nákvæmar. Munurinn á þó ekki að geta skipt máli fyrir heildarmyndina.

4. Þessi grein byggist á fyrirlestri sem haldinn var á 4. Rask-ráðstefnu Íslenska málfræðifélagsins í Odda, 25. nóvember 1989. Hér er þó ýmsu breytt frá þeirri gerð.

 

Ritaskrá

Eiríkur Rögnvaldsson. 1990. Quirky Subjects in Old Icelandic. Proceedings of the Twelfth Scandinavian Conference of Linguistics. Málvísindastofnun Háskóla Íslands, Reykjavík (væntanlegt.)

Eiríkur Rögnvaldsson og Örnólfur Thorsson. 1989. Fornir textar í tölvubanka. Saga News 4:19-24.

Friðrik Magnússon. 1988. Hvað er títt? Tíðnikönnun Orðabókar Háskólans. Orð og tunga 1:1-49.

Kristín Bjarnadóttir. 1990. Dativus sympatheticus. Óprentuð ritgerð, Háskóla Íslands, Reykjavík.