Orð og tunga - 08.07.2019, Page 172
160 Orð og tunga
um. Málheildin skyldi verða öllum aðgengileg í gegnum veflæga
mál heild ar leitarvél auk þess sem hægt yrði að hala henni niður ásamt
lýsi gögn um. Eftir reynslu af smíði Markaðrar íslenskrar málheildar
var ákveðið að við gerð þessarar nýju málheildar yrði fyrst og fremst
afl að texta sem til væru á stafrænu sniði og auðvelt væri að vinna
með. Það flýtir fyrir allri vinnu og gerir okkur kleift að einbeita okkur
að söfnun á miklu magni texta, frekar en að verja miklum tíma í að
koma textum á aðgengilegt stafrænt form. Þá var ákveðið að mál-
heildin yrði gefin út með eins opnum leyfum og nokkur kostur væri,
til að greiða fyrir notkun og allri vinnu með málheildina.
Auk þess að nýtast í máltækni gæti ný risastór málheild opnað
nýja möguleika í margvíslegum málfræðirannsóknum og þar að auki
gagnast í kennslu í málfræði og máltækni.
2.1 Málheild fyrir málfræðirannsóknir
Tilkoma rafrænna texta í miklu magni hefur gerbreytt aðstöðu mál-
fræðinga til margs konar málrannsókna. Hægt er að leita að dæmum
í gífurlegu textamagni á örskotsstund, eitthvað sem hefði tekið ár eða
áratugi að leita í með hefðbundnum lestri. Með þessum hætti má til
að mynda skoða breytileika í setningagerð, breytileika og nýjungar í
beygingum, orðmyndun og orðaforða, merkingarbreytingar og svo
má áfram telja. Þar að auki er auðveldara að leita í fjölbreyttari text-
um en fyrr, ekki bara formlegum yfirlesnum textum eftir þjálfaða
höf unda, heldur líka óyfirlesnum textum á óformlegu málsniði eftir
all an almenning. Tæknin býður þannig líka upp á möguleika til
að skoða breytileika milli mismunandi textategunda og málsniða,
breytingar sem eru yfirstandandi og breytileika eftir aldri og upp-
runa höfunda.
Málfræðingar hafa gert nokkuð af því að safna dæmum á vefn um
með venjulegum leitarvélum. Það getur gagnast vel, en þótt texta-
magnið sem þannig er leitað í sé gífurlegt er það ýmsum annmörkum
háð. Það er til dæmis útilokað að flokka niðurstöðurnar. Það er ekki
hægt að skoða mismunandi málnotkun eftir textategundum, eftir
aldri texta eða eftir uppruna, kyni og aldri höfunda. Auk þess er
vefurinn síkvikur og leitarvélar mismunandi – niðurstöður geta verið
misjafnar frá degi til dags vegna þess að ekki er verið að leita í sömu
textum eða með sömu leitarvél. Það getur því verið erfitt að prófa
niðurstöður með því að endurtaka tilraunir. Eðli vefsins gerir slíkt
ókleift. Þess vegna þótti mikilvægt að koma upp gagnagrunni sem
tunga_21.indb 160 19.6.2019 16:56:18