Orð og tunga - 01.06.2006, Síða 124
122
Orð og tunga
aka sng sögn í nafnhætti, germynd
heilum Ikeþsf lýsingarorð í karlkyni, eintölu, þágufalli, sterkri beyg-
ingu, frumstigi
vagni nkeþ nafnorð í karlkyni, eintölu, þágufalli
heim aa atviksorð
Við mörkunina slitnar textinn í sundur og verður að lista þar sem eitt
orð er í hverri línu. Mörkunarferlinu er lýst nánar í 4. kafla hér á eftir.
TnT-markarinn varþjálfaður á textasafni Orðtíðnibókarinnar. Hægt
er að mæla nákvæmni mörkunar með fjölda réttra greiningarstrengja
miðað við heildarfjölda þeirra. Sé aðeins tekið mið af orðflokki en
ekki öðrum hlutum greiningarstrengsins, t.d. kyni, tölu og falli nafn-
orða, náði TnT-markarinn að meðaltali 98,14% nákvæmni við mörk-
un venjulegra texta (Sigrún Helgadóttir 2004a:61). Til samanburðar
mörkuðust orðasambönd með sögninni aka með 95,07% nákvæmni
(miðað við orðflokk eingöngu en þó með fallstjórnarmerkingu for-
setninga og falli persónufornafna og afturbeygða fornafnsins), og
orðasambönd með lýsingarorðinu glaður mörkuðust með 96,96% ná-
kvæmni.
4 Ferli mörkunar
Mörkun texta fer þannig fram að gefin er skipun sem setur af stað
mörkunarferlið og skilar það síðan niðurstöðuskrám. Sökum þess að
orðasambönd eru ekki venjulegur texti þarf að gera sérstakar ráðstaf-
anir til að mörkunin skili nothæfum niðurstöðum. Fyrst þarf að und-
irbúa textann, síðan er markaranum beitt á hann og loks er markaði
textinn lagaður til svo að unnt sé að lesa úr honum niðurstöðurnar
með hægu móti. Mörkun orðasambanda þarf því að fara fram í fimm
til sex skrefum.
1. Orðasamböndin eru snyrt og einfölduð.
2. Orðasamböndin eru aðgreind hvert frá öðru með tákninu #.
3. Orðasamböndin eru mörkuð með TnT-markaranum sem skilar
þeim sem lóðréttum lista.
4. Orðasamböndin eru færð aftur til fyrra horfs svo að hvert orða-
samband sé í sérlínu.
5. Mörkin eru skilin frá orðunum og flutt aftast í línurnar.
6. Mörkin eru einfölduð eftir því sem ástæða þykir til.