Gripla - 20.12.2012, Page 333
331
eIRíkuR RÖGnvALDsson, Anton kARL InGAson,
eInAR fReyR sIGuRÐsson, joeL C. WALLenBeRG
SÖGULEGI ÍSLENSKI TRJÁBANKINN
1. Inngangur
HaustiÐ 2011 LAuk gerð Sögulegs íslensks trjábanka (Icelandic Parsed
Historical Corpus, IcePaHC),1 safns þáttaðra (setningafræðilega greindra)
texta frá 12. til 21. aldar – alls ein milljón lesmálsorða2 úr rúmum 60
textum eða textabútum (Wallenberg o.fl. 2011). frum greining text anna
var vélræn en meginvinnan við bankann fólst í hand virkri þáttun text-
anna sem var mikið verk. eins og venja er í trjábönkum er bæði greind
formgerð setninga og setn ingafræðileg vensl. framsetningin er oft í formi
setningafræðilegra hríslna eða trjáa, og af því er dregið heitið trjábanki
(e. treebank).
1 smíði Sögulega íslenska trjábankans var kostuð af styrk Rannsóknasjóðs til verkefnisins
„Hagnýt mál tækni utan ensku“ (nr. 090662011); u.s. national science foundation (nsf)
International Research fellowship Program (IRfP), grant #oIse-0853114, „evolution of
Language systems: a comparative study of grammatical change in Icelandic and english“;
styrk Rannsóknasjóðs Háskóla íslands til verk efnisins „sögulegur íslenskur trjábanki“;
og styrk frá eu ICt Policy support Programme sem hluta af „Competitiveness and
Innovation framework Programme“, styrknúmer 270899 (MetA-noRD). við stöndum
í þakkarskuld við ýmsa fræðimenn og rithöfunda sem létu okkur í té texta sem þeir eru
að gefa út eða hafa skrifað. við þökkum Hrafni Loftssyni dósent sem er aðalhöfundur
IceNLP hugbúnaðar pakkans, Brynhildi stefánsdóttur og Huldu óladóttur sem unnu við
þáttun textans, og stúdentum sem slógu inn allmarga texta. – trjábankinn hefur verið
kynntur á ýmsum vettvangi, s.s. á RILivs-vinnu stofu í osló í september 2009 (eiríkur
Rögnvaldsson, Anton karl Ingason og einar freyr sigurðsson 2011), í fyrirlestrum við
university of Pennsylvania, university of Massachusetts og new york university í maí
2010, á Hugvísindaþingi í Reykjavík í mars 2011 og 2012, á MenotA-fundi í Reykjavík
í ágúst 2011, á ACRH-vinnustofunni í Heidelberg í janúar 2012 (eiríkur Rögnvaldsson
o.fl. 2011), o.v. við þökkum áheyrendum á þessum stöðum fyrir gagnlegar umræður og
athugasemdir. síðast en ekki síst þökkum við samstarfsfólki okkar við Pennsylvaníuháskóla,
einkum tony kroch og Beatrice santorini, fyrir ómetanlegt framlag til verksins. Að auki fá
tveir nafnlausir ritrýnar þakkir fyrir ýmsar gagnlegar ábendingar.
2 Hér er orðið lesmálsorð notað yfir það sem nefnist „running word“ eða „token“ á ensku,
eins og gert er í Íslenskri orðtíðnibók (Jörgen Pind, Friðrik Magnússon og Stefán Briem
1991). Fjöldi lesmálsorða er þannig mælikvarði á lengd texta.
Gripla XXIII (2012): 331–352.