Orð og tunga - 01.06.2007, Page 68
58
Orð og tunga
lengi verið til, en tilheyri hins vegar málsniði sem ekki hefur áður ver-
ið notað í (aðgengilegu) ritmáli. Það þarf líka að hafa í huga að dæmi
á netinu eru ekki endilega úr nútímamáli. Það er talsvert af fornum
textum á netinu (t.d. allar íslendingasögur, Heimskringla og Fornaldar-
sögur Norðurlanda hjá Netútgáfunni, http://zviozv.s7wrpa.is/net). Þegar ég
var að skoða samband fornafnanna sjdlfur og sinn í fyrra fann ég á net-
inu allnokkur dæmi um sjdlfrar sinnar; en þegar að var gáð reyndust
þau flest vera úr eldri textum.
Eins þarf að gæta þess að talsvert er af málfræðigreinum á netinu
og í þeim eru stundum dæmi sem annaðhvort eru beinlínis ótæk og
eiga að vera það, eða koma sjaldan fyrir í venjulegum textum og eru
því ekki marktæk sem dæmi um málnotkun. Hér að framan var því
haldið fram að jafnvel í leit á netinu með Google fyndust engin dæmi
á við (3) en það er ekki alveg rétt; í raun finnur Google fjögur dæmi
um sambandið vonast til að vanta ekki og tvö dæmi um vonast til að
leiðast ekki. En þegar dæmin eru skoðuð kemur í ljós að þau eru öll úr
dæmasetningum málfræðinga.
2.5 Textasöfn í tungutækni
Hér er ekki ætlunin að gera ítarlega úttekt á kostum þess og göllum
að nota textasöfn í setningafræðirannsóknum. Enginn vafi er á því að
textasöfn geta komið að miklu gagni á því sviði, en hitt er jafnljóst
að þau svara ekki öllum spurningum og nauðsynlegt er að gæta var-
úðar í túlkun þeirra. En þegar litið er á gildi textasafna frá sjónarhóli
tungutækni er viðhorfið annað. Þar er sjónarhornið hagnýtt fremur en
fræðilegt - ekki verið að leita upplýsinga um málkerfið, heldur greina
textana og vinna úr þeim upplýsingar sem síðan er hægt að nota til að
„hanna eða útbúa einhvern hugbúnað eða tæki sem nýtist mönnum í
starfi eða leik", eins og segir í skilgreiningu orðsins tungutækni í Orða-
banka íslenskrar mdlstöðvar (http://herdubreid.rhi.hi.is:1026/zvordbank/-
search). Þá skiptir ekki endilega máli hvers vegna tiltekin setninga-
gerð kemur ekki fyrir - hvort það er vegna þess að hún er sjaldgæf,
eða vegna þess að hún sé alls ekki hugsanleg í málinu; málfræðilega
ótæk. Ef hún kemur ekki fyrir í stóru textasafni er ekki líklegt að mörg
dæmi um hana komi fyrir í öðru safni sambærilegra texta. Því er ekki
líklegt að hugbúnaður okkar eða tól þurfi að glíma við hana, nema þá
í mjög litlum mæli. Jafnvel þótt setningagerðin komi fyrir, og hugbún-