Orð og tunga - 01.06.2007, Page 40
30
Orð og tunga
koma ýmis sjónarmið til álita: Á textavalið fyrst og fremst að beinast
að því sem er gefið út, birt eða flutt opinberlega, t.d. í bókum, blöð-
um og öðrum fjölmiðlum? Eða á jafnframt að taka með ýmiss konar
óútgefin skrif, s.s. sendibréf og tölvuskeyti, og óopinbert eða hálfop-
inbert talmál, t.d. samtöl og viðræður á lokuðum fundum? Hvern-
ig á að ákvarða hlutfall mismunandi texta? Á hlutfall mismunandi
texta að miðast við hlutfallslega skiptingu þess sem er gefið út eða
birt opinberlega á tilteknu tímabili eða á líka að taka tillit til þess
að útbreiðsla texta og textategunda er mismikil? Dagblöðum er t.d.
dreift til þúsimda áskrifenda dag hvern en margar bækur og tíma-
rit höfða til þröngs hóps og slíkir textar eru bara lesnir af fáeinum
tugum eða hundruðum málnotenda. Og hvaða mælistiku er hægt að
leggja á eðlilegt hlutfall milli opinberlega útgefins efnis og efnis sem
tilheyrir einkalífi fólks og daglegum samskiptum? Slíkar vangaveltur
eru gagnlegar og þeir sem setja saman málheildir verða að velta slík-
um spurningum fyrir sér en þegar kemur að því að safna textum vega
ýmis hagnýt atriði ekki síður þungt. Þar má einkum nefna það hversu
auðvelt er að nálgast texta af ákveðnu tagi, hvort leyfi fæst til að nota
þá og hversu mikil vinna felst í öflun textanna og úrvinnslu þeirra.
Almennt séð munu þó flestir sammála um mikilvægi eftirfarandi at-
riða þegar í hlut eiga málheildir til almennra nota (stundum nefndar
reference corpus á ensku): (1) að það tímabil og þau svið málsins sem
málheildinni er ætlað að spanna (m.t.t. textategunda, efnis, uppruna
o.þ.h.) séu skýrt afmörkuð; (2) að samsetning safnsins sé skipulögð
fyrirfram, þ.m.t. hlutfall texta af hverri gerð, og að fjölbreytni safnsins
sé sem best tryggð; og (3) að það sé gerð nákvæm grein fyrir afmörk-
un og innihaldi málheildarinnar þannig að notendur geti sjálfir metið
hvort og hvernig hún nýtist þeim og hvaða ályktanir þeir geti leyft sér
að draga af niðurstöðum sínum.
Eins og fram hefur komið er tekið tillit til ýmissa þátta við val á
textum og flokkun þeirra. Einn þeirra er uppruni textanna og Tafla
1 sýnir samsetningu bresku málheildarinnar BNC (British National
Corpus) eftir uppruna. Hún sýnir m.a. að talmálstextar eru minna en
fimmtungur af BNC. Hlutur talmálsins er því áberandi lítill miðað við
ritmál og að því leyti endurspeglar málheildin tæplega almenna mál-
notkun. Þetta er þó einkenni á velflestum almennum málheildum og
ástæður þessa ójafnvægis verða ræddar í þriðja kafla.