Gripla - 20.12.2012, Page 334
GRIPLA332
Sögulegi íslenski trjábankinn er gerður í tvennum tilgangi. Annars vegar
til nota í máltækni, en nákvæmar upplýsingar um setningagerð eru mikil-
væg forsenda fyrir gerð ýmiss konar máltæknibúnaðar, svo sem leiðrétt-
ingarforrita, vélrænna þýðinga, töl fræðilegra þáttara o.fl. Hins vegar er
bankinn ætlaður til málrannsókna, einkum á setningagerð og setn inga-
fræðilegum breytingum, og hefur þegar sannað gildi sitt í ýmsum rann-
sóknum af því tagi.
Á undanförnum árum hefur verið unnið að smíði viðamikilla trjábanka
fyrir ýmis tungumál en Sögulegi íslenski trjábankinn er einstakur að ýmsu
leyti, að því er við teljum:
⚫ í fyrsta lagi er hann frá upphafi ætlaður til nota bæði í máltækni og
málfræði legum rannsóknum. flestir trjábankar eru annaðhvort gerðir
til nota innan máltækni (s.s. Penn Treebank, sjá 2. kafla) eða til setn-
ingafræðilegra rann sókna (s.s. sögulegu ensku trjábankarnir, sjá 2.
kafla), en ekki hvors tveggja.
⚫ í öðru lagi spannar trjábankinn á tíundu öld – elstu textarnir eru
frá lokum 12. aldar en þeir yngstu frá fyrsta áratug 21. aldar. flest
tungumál hafa breyst svo mikið á undanförnum þúsund árum að það
væri hvorki gagnlegt né raunhæft að hafa texta frá svo löngum tíma í
einum og sama trjábankanum.
⚫ í þriðja lagi hefur trjábankinn að geyma eina milljón lesmálsorða og
er því eitt stærsta safn þáttaðra texta sem til er fyrir nokkurt tungu-
mál. til eru mun stærri trjá bankar sem hafa verið þáttaðir á vélrænan
hátt, en stærri handleið réttir trjá bankar munu aðeins vera til fyrir
tvö tungumál – ensku (Penn Tre ebank, sjá 2. kafla) og tékknesku
(Prague Dependency Treebank, sjá Hajič 2005 og http://ufal.mff.cuni.
cz/pdt2.0/).
⚫ í fjórða lagi er trjábankinn algerlega opinn og aðgengilegur öllum,
án nokkurra leyfa eða skráningar, og sama máli gegnir um allan
hugbúnað sem notaður var til að smíða hann, svo og þann hugbúnað
sem varð til innan verkefnisins. Bæði hugbúnaðinum og trjábank-
anum sjálfum er dreift með stöðluðu leyfi (LGPL; sjá http://www.
gnu.org/licenses/lgpl.html).
í þessari grein er gerð grein fyrir forsendum trjábankans og vinnunni við
gerð hans, og tekið dæmi um hugsanlega nýtingu. í 2. kafla er sagt frá