Gripla - 20.12.2012, Page 338
GRIPLA336
í trjábankanum eru rúmlega 60 textar eða bútar úr textum sem fengnir
eru úr ýmsum áttum. u.þ.b. 20 textar fengust úr ýmsum textasöfnum
á netinu, einkum frá Netútgáfunni (http://snerpa.is/net) en einnig frá
Gutenberg-verkefninu (http://www. gutenberg.org), Inter net Archive (http://
www.archive.org/) og Medieval Nordic Text Archive (Menota, http://www.
menota.org/). um 10 textar komu úr textasafni stofnunar Árna Magnús-
sonar (http://www.lexis.hi.is/corpus/). við fengum 10 texta beint frá fræði-
mönnum sem vinna að útgáfu þeirra eða frá forlögum sem hafa gefið þá út.
Af gangurinn, um 20 textar, var svo sleginn inn fyrir okkur af stúdentum
sem unnu að verkefninu. fjórir textar frá 20. og 21. öld eru enn í höfundar-
rétti en við fengum leyfi höfundanna til að nota þá og dreifa þeim.
Gæði textanna voru misjöfn. í flestum tilvikum höfðum við þó aðgang
að traustum útgáfum, ýmist stafréttum eða með samræmdri stafsetn-
ingu. Þannig fengum við t.d. nýja útgáfu Ármanns jakobssonar og Þórðar
Inga Guðjónssonar á Morkin skinnu, út gáfu Þórunnar sigurðardóttur á
Fimmtíu heilögum hugvekjum, nýja útgáfu jóhannesar Bjarna sigtryggssonar
á Ævisögu Jóns Steingrímssonar, útgáfu Matthews j. Driscoll á Fimmbræðra
sögu, og óprentaða útgáfu svanhildar óskarsdóttur á Júditarbók, svo að
dæmi séu nefnd. útgáfur Agnete Loth á Late Medieval Icelandic Romances
og Reykja hólabók komu okkur einnig að góðu gagni. síðastnefndu text-
arnir voru slegnir inn fyrir verkefnið, en hina fengum við alla rafræna hjá
útgefendum.
stafsetning textanna var með ýmsu móti. sumir voru með nútímastaf-
setningu – að sjálfsögðu 20. og 21. aldar textarnir, en einnig ýmsir þeirra
eldri sem hafa verið gefnir þannig út. Aðrir voru með samræmdri stafsetn-
ingu fornri, t.d. Morkinskinna. enn aðrir voru stafréttir eftir handritum,
bæði ýmsir fornir textar (t.d. úr Late Medieval Icelandic Roman ces) og yngri
(t.d. Fimmbræðra saga). við ákváðum að færa alla texta til nútímastafsetn-
ingar. Það auðveldar mjög leit að einstökum orðum – nægilegt er að slá
inn nútímamálsmyndina til að finna öll dæmi um tiltekið orð, þótt það sé
skrifað á ýmsan hátt í textunum.
Meginástæðan var þó sú að við vildum geta notað greiningarforrit sem
hafa verið skrifuð fyrir íslensku – markarann IceTagger (Hrafn Loftsson
2008), þáttarann Ice Parser (Hrafn Loftsson og eiríkur Rögnvaldsson
2007) og lemmunarforritið Lemmald (Anton karl Ingason o.fl. 2008),
sem saman mynda hugbúnaðarpakkann IceNLP (hægt er að sækja hann á