Orð og tunga - 01.06.2002, Side 14

Orð og tunga - 01.06.2002, Side 14
4 Orð og tunga markara og fengið reynslu af því að endurbæta reglusafn hans. Að fenginni þeirri reynslu töldum við einboðið að athuga hvort hann gæti nýst við mörkun á íslenskum textum. Svo heppilega vill til að til er stórt og gott íslenskt þjálfunarsafn. Það eru grunn- skrárnar úr vinnslu íslenskrar orðtíðnibókar, sem Orðabók Háskólans gaf út 1991. Ritstjóri bókarinnar var Jörgen Pind, en Stefán Briem sá um vélræna málfræðigrein- ingu og Friðrik Magnússon um handvirka greiningu. Form skránna er sýnt í (5). Fremst er greiningarstrengur sem inniheldur upplýsingar um orðflokk og öll beygingarleg atriði. Strengurinn n k e n g fyrir framan hvolpurinn merkir þannig nafnorð, karlkyn, eintala, nefnifall, greinir. (5) f p k e n s f g 3 e þ o n h e o a o n k e o c n k e n g n k e n - m s f g 3 e þ n v e n hann átti afmæli I dag °g hvolpurinn Vaskur var afmælisgjöf hann eiga afmæli í dagur °g hvolpur Vaskur vera afmælisgjöf Þessi greining var að nokkru leyti unnin vélrænt, en síðan var farið vandlega yfir hana alla í höndunum og það á að vera hægt að treysta því að hún sé rétt. Þetta hráefni er alls 500 þúsund orð (5000 orða bútar úr 100 textum, sem skiptast á fimm mismunandi efnisflokka). Hér er því um að ræða mjög stórt og sérlega verðmætt þjálfunarsafn (til samanburðar má nefna að þjálfunarsafnið í hinu norska taggerprosjekt var um 100 þúsund orð, og textarnir í því ekki sérstaklega valdir). Greiningin í íslenskri orðtíðnibók er mjög nákvæm; það er notuð stór markaskrá (e. tagset). T.d. er fallstjórn forsetninga og sagna greind sérstaklega; upplýsingar um fallstjórn sagna birtast þó ekki í prentuðu bókinni. Alls kemur 621 mismunandi grein- ingarstrengur fyrir í bókinni. Byrjað var á að taka öll orðin í grunnskrám Orðtíðnibókarinnar og raða þeim í staf- rófsröð. Mörg þeirra fá þá fleiri en einn greiningarstreng. Þá er algengasti strengurinn tekinn og keyrður sem aukastrengur inn í markaða textann, á undan rétta greining- arstrengnum. I mjög mörgum tilvikum verður aukastrengurinn sá sami og hinn rétti greiningarstrengur sem orðið hefur fyrir. En það er auðvitað ekki alltaf sem algengasta greiningin á við, og í þeim tilvikum verða greiningarstrengirnir tveir mismunandi. At- hugið þó að alltaf er hægt að sjá hvor greiningin er rétt, vegna þess að upphaflegi (rétti) strengurinn er aftast. Það kann að virðast undarlegt að byrja á því að bæta röngum greiningum inn í skrá sem er rétt greind. En þetta er nauðsynlegt til að markarinn geti lært reglur sem endurskoða greiningu út frá umhverfi. Þegar hrár texti er markaður frá grunni þarf að byrja á að keyra hann saman við orðasafn með beygingarlegum upplýsingum, eins og áður var nefnt. Þegar um tvíræða orðmynd er að ræða fær hún þá í upphafi tvo greiningarstrengi. Með þeirri aðferð sem lýst er hér að framan lærir inarkarinn hvernig
Side 1
Side 2
Side 3
Side 4
Side 5
Side 6
Side 7
Side 8
Side 9
Side 10
Side 11
Side 12
Side 13
Side 14
Side 15
Side 16
Side 17
Side 18
Side 19
Side 20
Side 21
Side 22
Side 23
Side 24
Side 25
Side 26
Side 27
Side 28
Side 29
Side 30
Side 31
Side 32
Side 33
Side 34
Side 35
Side 36
Side 37
Side 38
Side 39
Side 40
Side 41
Side 42
Side 43
Side 44
Side 45
Side 46
Side 47
Side 48
Side 49
Side 50
Side 51
Side 52
Side 53
Side 54
Side 55
Side 56
Side 57
Side 58
Side 59
Side 60
Side 61
Side 62
Side 63
Side 64
Side 65
Side 66
Side 67
Side 68
Side 69
Side 70
Side 71
Side 72
Side 73
Side 74
Side 75
Side 76
Side 77
Side 78
Side 79
Side 80
Side 81
Side 82
Side 83
Side 84
Side 85
Side 86
Side 87
Side 88
Side 89
Side 90
Side 91
Side 92
Side 93
Side 94
Side 95
Side 96
Side 97
Side 98
Side 99
Side 100
Side 101
Side 102
Side 103
Side 104
Side 105
Side 106
Side 107
Side 108

x

Orð og tunga

Direkte link

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Orð og tunga
https://timarit.is/publication/1210

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.