Bibliotheca Arnamagnæana. Supplementum - 01.06.2013, Blaðsíða 63

Bibliotheca Arnamagnæana. Supplementum - 01.06.2013, Blaðsíða 63
Elektronisk databehandling og filologiske detailstudier 35 Hver ordform skulle desuden forsynes med oplysninger om lemma og morfosyntaktiske forhold (msa), hvilket blev gjort ved at indfpre dem som sákaldte attributter til word- elementet.1 Som eksempel kan den fprnævnte substantiv- form “heíl” tjene: <wlemma=“hestr” msa=“xNC gM nS cA sl”> <facs >heft < / facs> <dipl>heft< / dipl> <norm>hest</norm> </w> Heraf fremgár at lemma er hestr, at ordet er et appellativ (xNC), at genus er maskulinum, at numerus er singularis, at kasus er akkusativ, og at det optræder i ubestemt form (sl).2 Alt ud over /ács-elementet er udfyldt halvautomatisk pá grundlag af den allerede analyserede del af hándskriftet (B), og proceduren herfor skal kort beskrives. Fprst kon- strueredes en lemmatiseringsbase med alle ordmanifesta- tioner fra B. Efter frasortering af de mindre frekvente for- mer i tilfælde med homografi forpgedes basen ved gene- rering af en række variantformer (fx (or)/fo2), (ff)/(s) og (a>)/(o)/(9)), hvilket var npdvendigt for at sikre en mere succesfuld halvautomatisk lemmatisering. Ved valget af va- riantformer udnyttedes naturligvis det gennem transskri- beringen opnáede kendskab til ortografien i A.3 Den udvidede lemmatiseringsbase anvendtes derefter som inputfil for lemmatiseringen af A. Et script sammen- lignede /áa-formerne i de to filer, og i tilfælde af overens- stemmelse blev alle andre oplysninger fra lemmatiserings- basen (dipl- og worm-niveau samt lemma og morfosyntak- tiske koder) overfprt. Det umiddelbare resultat var bud pá de relevante oplysninger i godt 70 % af ordformerne. For yderligere at mindske det efterfplgende manuelle lemmati- seringsarbejde integreredes en simpel form for disambigu- ering vha. s0g & erstat med “regulære udtryk”.4 En del af 1 Emenderede eller supplerede ordformer lemmatiseres ikke, da de ikke i fprste omgang pnskes inddraget i den sproglige analyse. Nár emen- derede former kan belyse interessante forhold, inddrages de dog i en senere analysefase. 2 Den anfprte opmærkning adskiller sig noget fra den senest anbefalede opmærkning i Haugen (2008). For sammenligningens skyld skal et eksempel pá opmærkning i overensstemmelse hermed anfpres: <w me:msa=“xAV rP" lemma=“svá”> <choice> <me:facs>s<am>”</amx/me:facs> <me:dipl>s<ex>va</exx/me:dipl> <me:norm>svá</me:norm> </choice> </w> Bemærk at abbreviaturer her markeres eksplicit som sádanne pá facs- niveau. 3Et alternativ er at basere lemmatiseringen pá automatisk genere- rede pseudonormaliserede former, hvori forskellig formvariation er elimineret. 4 “Regulære udtryk” beskriver hvordan en tekststreng er sat sammen, og har en meget specifik syntaks. De kan bl. a. udgpres af metategn med specialbetydning (standardværket om regulære udtryk er Friedl 2006). disse og andre erstatninger udfprtes sidelpbende med den manuelle lemmatisering og korrekturlæsning.5 Ved tilfpjelse af nye lemmata og morfosyntaktiske op- lysninger sprgede en funktion i den benyttede editor (GNU Emacs) for indfprelse af disse for samtlige iden- tiske ordformer i resten af filen, hvorved opmærkningen successivt forbedredes. Efter omtrent to ugers arbejde med korrekturlæsning og rettelser, underspgtes forholdet mel- lem korrekte og ukorrekte former, og fremgangsmáden vi- ste sig relativt succesrig, ikke mindst med tanke pá at ud- gangspunktet var det helt hándskriftnære /áct-niveau. Det er dog vigtigt at understrege at kun 500 ord kontrolleredes, og at der udelukkende var tale om prosa, i hvilken kontekst tallene formentlig er nogenlunde repræsentative, mens de langtfra giver et korrekt billede af forholdene i stroferne, hvor der frem for alt var langt flere uudfyldte former. For- delingen mellem korrekte, fejlagtige og uudfyldte former fremgár af tabel 2.1. Ord/former Antal Procent Korrekte 369 74% Fejlagtige 65 13% Uudfyldte 66 13% I alt 500 100 % Tabel 2.1: Succesrate for lemmatiseringsscripts Til trods for den store hjælp fra den halvautomatiske lemmatisering kom arbejdet med korrekturlæsning og ret- telser af computerens forslag til at tage endog betydelig længere tid end forventet. Et problem i denne forbindelse er at arbejdets karakter uundgáeligt fprer til at man ved kor- rekturlæsning af morfosyntaktiske oplysninger pga. træt- hed eller uopmærksomhed læser hen over mere eller min- dre ábenlyse fejl. Forskelligt kan imidlertid bidrage til en minimering af risikoen for dette, og det máske vigtigste værktpj er benyttelsen af KWIC-konkordanser. Ved at ba- sere en del af korrekturlæsningen pá KWIC-konkordanser over bestemte ordformer og grammatiske kategorier træ- der forkerte opmærkninger langt tydeligere frem. Forskel- lige programmer kan generere sádanne konkordanser, fx det kraftige korpusværktpj IMS Corpus Workbench.6 En 5Som eksempler pá den anvendte disambiguering kan de f^lgende tjene: 1) Erstat en given kasus med hhv. akk. efter præp. um, dat. efter præp. frá og gen. efter præp. til. 2) Erstat inf. med finit form mellem ok og et pluralt sb. i nom. eller et pluralt pron. pers. 3) Erstat inf. med finit form foran þeir. 4) Erstat finit form med inf. efter en finit form. 5) Erstat 3. pers. med 1. pers. i verbalformer efter pronominalformen ek. 6) Erstat 3. pers. med 2. pers. i verbalformer efter pronominalfor- men þú. 7) Erstat verbalformen er med relativpartiklen, nár der efter denne f^lger a) et finit verb. (hvis ikke et interpunktionstegn f^lger), b) adv. + finit verb., c) præp. + finit verb. (og erstat samtidig præp. med adv.) eller d) prop. + appell. + finit verb. 8) Erstat præp. med adv. foran finit verb. 9) Erstat dat. pl. med dat. sg. af pron. poss. efter et nomen i dat. sg. mask. 10) Erstat akk. med nom. af pronominalfor- men þat foran et verb. i 3. pers. sg. 11) Erstat nom. med gen. i kon- struktioner som Haraldr kortungr efter et sb. 6 Se www.sourceforge.net/projects/cwb. 2.4.2
Blaðsíða 1
Blaðsíða 2
Blaðsíða 3
Blaðsíða 4
Blaðsíða 5
Blaðsíða 6
Blaðsíða 7
Blaðsíða 8
Blaðsíða 9
Blaðsíða 10
Blaðsíða 11
Blaðsíða 12
Blaðsíða 13
Blaðsíða 14
Blaðsíða 15
Blaðsíða 16
Blaðsíða 17
Blaðsíða 18
Blaðsíða 19
Blaðsíða 20
Blaðsíða 21
Blaðsíða 22
Blaðsíða 23
Blaðsíða 24
Blaðsíða 25
Blaðsíða 26
Blaðsíða 27
Blaðsíða 28
Blaðsíða 29
Blaðsíða 30
Blaðsíða 31
Blaðsíða 32
Blaðsíða 33
Blaðsíða 34
Blaðsíða 35
Blaðsíða 36
Blaðsíða 37
Blaðsíða 38
Blaðsíða 39
Blaðsíða 40
Blaðsíða 41
Blaðsíða 42
Blaðsíða 43
Blaðsíða 44
Blaðsíða 45
Blaðsíða 46
Blaðsíða 47
Blaðsíða 48
Blaðsíða 49
Blaðsíða 50
Blaðsíða 51
Blaðsíða 52
Blaðsíða 53
Blaðsíða 54
Blaðsíða 55
Blaðsíða 56
Blaðsíða 57
Blaðsíða 58
Blaðsíða 59
Blaðsíða 60
Blaðsíða 61
Blaðsíða 62
Blaðsíða 63
Blaðsíða 64
Blaðsíða 65
Blaðsíða 66
Blaðsíða 67
Blaðsíða 68
Blaðsíða 69
Blaðsíða 70
Blaðsíða 71
Blaðsíða 72
Blaðsíða 73
Blaðsíða 74
Blaðsíða 75
Blaðsíða 76
Blaðsíða 77
Blaðsíða 78
Blaðsíða 79
Blaðsíða 80
Blaðsíða 81
Blaðsíða 82
Blaðsíða 83
Blaðsíða 84
Blaðsíða 85
Blaðsíða 86
Blaðsíða 87
Blaðsíða 88
Blaðsíða 89
Blaðsíða 90
Blaðsíða 91
Blaðsíða 92
Blaðsíða 93
Blaðsíða 94
Blaðsíða 95
Blaðsíða 96
Blaðsíða 97
Blaðsíða 98
Blaðsíða 99
Blaðsíða 100
Blaðsíða 101
Blaðsíða 102
Blaðsíða 103
Blaðsíða 104
Blaðsíða 105
Blaðsíða 106
Blaðsíða 107
Blaðsíða 108
Blaðsíða 109
Blaðsíða 110
Blaðsíða 111
Blaðsíða 112
Blaðsíða 113
Blaðsíða 114
Blaðsíða 115
Blaðsíða 116
Blaðsíða 117
Blaðsíða 118
Blaðsíða 119
Blaðsíða 120
Blaðsíða 121
Blaðsíða 122
Blaðsíða 123
Blaðsíða 124
Blaðsíða 125
Blaðsíða 126
Blaðsíða 127
Blaðsíða 128
Blaðsíða 129
Blaðsíða 130
Blaðsíða 131
Blaðsíða 132
Blaðsíða 133
Blaðsíða 134
Blaðsíða 135
Blaðsíða 136
Blaðsíða 137
Blaðsíða 138
Blaðsíða 139
Blaðsíða 140
Blaðsíða 141
Blaðsíða 142
Blaðsíða 143
Blaðsíða 144
Blaðsíða 145
Blaðsíða 146
Blaðsíða 147
Blaðsíða 148
Blaðsíða 149
Blaðsíða 150
Blaðsíða 151
Blaðsíða 152
Blaðsíða 153
Blaðsíða 154
Blaðsíða 155
Blaðsíða 156
Blaðsíða 157
Blaðsíða 158
Blaðsíða 159
Blaðsíða 160
Blaðsíða 161
Blaðsíða 162
Blaðsíða 163
Blaðsíða 164
Blaðsíða 165
Blaðsíða 166
Blaðsíða 167
Blaðsíða 168
Blaðsíða 169
Blaðsíða 170
Blaðsíða 171
Blaðsíða 172
Blaðsíða 173
Blaðsíða 174
Blaðsíða 175
Blaðsíða 176
Blaðsíða 177
Blaðsíða 178
Blaðsíða 179
Blaðsíða 180
Blaðsíða 181
Blaðsíða 182
Blaðsíða 183
Blaðsíða 184
Blaðsíða 185
Blaðsíða 186
Blaðsíða 187
Blaðsíða 188
Blaðsíða 189
Blaðsíða 190
Blaðsíða 191
Blaðsíða 192
Blaðsíða 193
Blaðsíða 194
Blaðsíða 195
Blaðsíða 196
Blaðsíða 197
Blaðsíða 198
Blaðsíða 199
Blaðsíða 200
Blaðsíða 201
Blaðsíða 202
Blaðsíða 203
Blaðsíða 204
Blaðsíða 205
Blaðsíða 206
Blaðsíða 207
Blaðsíða 208
Blaðsíða 209
Blaðsíða 210
Blaðsíða 211
Blaðsíða 212
Blaðsíða 213
Blaðsíða 214
Blaðsíða 215
Blaðsíða 216
Blaðsíða 217
Blaðsíða 218
Blaðsíða 219
Blaðsíða 220
Blaðsíða 221
Blaðsíða 222
Blaðsíða 223
Blaðsíða 224
Blaðsíða 225
Blaðsíða 226
Blaðsíða 227
Blaðsíða 228
Blaðsíða 229
Blaðsíða 230
Blaðsíða 231
Blaðsíða 232
Blaðsíða 233
Blaðsíða 234
Blaðsíða 235
Blaðsíða 236
Blaðsíða 237
Blaðsíða 238
Blaðsíða 239
Blaðsíða 240
Blaðsíða 241
Blaðsíða 242
Blaðsíða 243
Blaðsíða 244
Blaðsíða 245
Blaðsíða 246
Blaðsíða 247
Blaðsíða 248
Blaðsíða 249
Blaðsíða 250
Blaðsíða 251
Blaðsíða 252
Blaðsíða 253
Blaðsíða 254
Blaðsíða 255
Blaðsíða 256
Blaðsíða 257
Blaðsíða 258
Blaðsíða 259
Blaðsíða 260
Blaðsíða 261
Blaðsíða 262
Blaðsíða 263
Blaðsíða 264
Blaðsíða 265
Blaðsíða 266
Blaðsíða 267
Blaðsíða 268
Blaðsíða 269
Blaðsíða 270
Blaðsíða 271
Blaðsíða 272
Blaðsíða 273
Blaðsíða 274
Blaðsíða 275
Blaðsíða 276
Blaðsíða 277
Blaðsíða 278
Blaðsíða 279
Blaðsíða 280
Blaðsíða 281
Blaðsíða 282
Blaðsíða 283
Blaðsíða 284
Blaðsíða 285
Blaðsíða 286
Blaðsíða 287
Blaðsíða 288
Blaðsíða 289
Blaðsíða 290
Blaðsíða 291
Blaðsíða 292
Blaðsíða 293
Blaðsíða 294
Blaðsíða 295
Blaðsíða 296
Blaðsíða 297
Blaðsíða 298
Blaðsíða 299
Blaðsíða 300
Blaðsíða 301
Blaðsíða 302
Blaðsíða 303
Blaðsíða 304
Blaðsíða 305
Blaðsíða 306
Blaðsíða 307
Blaðsíða 308
Blaðsíða 309
Blaðsíða 310
Blaðsíða 311
Blaðsíða 312
Blaðsíða 313
Blaðsíða 314
Blaðsíða 315
Blaðsíða 316
Blaðsíða 317
Blaðsíða 318
Blaðsíða 319
Blaðsíða 320
Blaðsíða 321
Blaðsíða 322
Blaðsíða 323
Blaðsíða 324
Blaðsíða 325
Blaðsíða 326
Blaðsíða 327
Blaðsíða 328
Blaðsíða 329
Blaðsíða 330
Blaðsíða 331
Blaðsíða 332
Blaðsíða 333
Blaðsíða 334
Blaðsíða 335
Blaðsíða 336
Blaðsíða 337
Blaðsíða 338
Blaðsíða 339
Blaðsíða 340
Blaðsíða 341
Blaðsíða 342
Blaðsíða 343
Blaðsíða 344
Blaðsíða 345
Blaðsíða 346
Blaðsíða 347
Blaðsíða 348
Blaðsíða 349
Blaðsíða 350
Blaðsíða 351
Blaðsíða 352
Blaðsíða 353
Blaðsíða 354
Blaðsíða 355
Blaðsíða 356
Blaðsíða 357
Blaðsíða 358
Blaðsíða 359
Blaðsíða 360
Blaðsíða 361
Blaðsíða 362
Blaðsíða 363
Blaðsíða 364
Blaðsíða 365
Blaðsíða 366
Blaðsíða 367
Blaðsíða 368
Blaðsíða 369
Blaðsíða 370
Blaðsíða 371
Blaðsíða 372
Blaðsíða 373
Blaðsíða 374
Blaðsíða 375
Blaðsíða 376
Blaðsíða 377
Blaðsíða 378
Blaðsíða 379
Blaðsíða 380
Blaðsíða 381
Blaðsíða 382
Blaðsíða 383
Blaðsíða 384
Blaðsíða 385
Blaðsíða 386
Blaðsíða 387
Blaðsíða 388
Blaðsíða 389
Blaðsíða 390
Blaðsíða 391
Blaðsíða 392
Blaðsíða 393
Blaðsíða 394
Blaðsíða 395
Blaðsíða 396
Blaðsíða 397
Blaðsíða 398
Blaðsíða 399
Blaðsíða 400
Blaðsíða 401
Blaðsíða 402
Blaðsíða 403
Blaðsíða 404
Blaðsíða 405
Blaðsíða 406
Blaðsíða 407
Blaðsíða 408
Blaðsíða 409
Blaðsíða 410
Blaðsíða 411
Blaðsíða 412
Blaðsíða 413
Blaðsíða 414
Blaðsíða 415
Blaðsíða 416
Blaðsíða 417
Blaðsíða 418
Blaðsíða 419
Blaðsíða 420
Blaðsíða 421
Blaðsíða 422
Blaðsíða 423
Blaðsíða 424
Blaðsíða 425
Blaðsíða 426
Blaðsíða 427
Blaðsíða 428
Blaðsíða 429
Blaðsíða 430
Blaðsíða 431
Blaðsíða 432
Blaðsíða 433
Blaðsíða 434
Blaðsíða 435
Blaðsíða 436
Blaðsíða 437
Blaðsíða 438
Blaðsíða 439
Blaðsíða 440
Blaðsíða 441
Blaðsíða 442
Blaðsíða 443
Blaðsíða 444
Blaðsíða 445
Blaðsíða 446
Blaðsíða 447
Blaðsíða 448
Blaðsíða 449
Blaðsíða 450
Blaðsíða 451
Blaðsíða 452
Blaðsíða 453
Blaðsíða 454
Blaðsíða 455
Blaðsíða 456
Blaðsíða 457
Blaðsíða 458
Blaðsíða 459
Blaðsíða 460
Blaðsíða 461
Blaðsíða 462
Blaðsíða 463
Blaðsíða 464
Blaðsíða 465
Blaðsíða 466
Blaðsíða 467
Blaðsíða 468
Blaðsíða 469
Blaðsíða 470
Blaðsíða 471
Blaðsíða 472
Blaðsíða 473
Blaðsíða 474
Blaðsíða 475
Blaðsíða 476
Blaðsíða 477
Blaðsíða 478
Blaðsíða 479
Blaðsíða 480
Blaðsíða 481
Blaðsíða 482
Blaðsíða 483
Blaðsíða 484
Blaðsíða 485
Blaðsíða 486
Blaðsíða 487
Blaðsíða 488
Blaðsíða 489
Blaðsíða 490
Blaðsíða 491
Blaðsíða 492
Blaðsíða 493
Blaðsíða 494
Blaðsíða 495
Blaðsíða 496
Blaðsíða 497
Blaðsíða 498
Blaðsíða 499
Blaðsíða 500
Blaðsíða 501
Blaðsíða 502
Blaðsíða 503
Blaðsíða 504
Blaðsíða 505
Blaðsíða 506
Blaðsíða 507
Blaðsíða 508
Blaðsíða 509
Blaðsíða 510
Blaðsíða 511
Blaðsíða 512
Blaðsíða 513
Blaðsíða 514
Blaðsíða 515
Blaðsíða 516
Blaðsíða 517
Blaðsíða 518
Blaðsíða 519
Blaðsíða 520
Blaðsíða 521
Blaðsíða 522
Blaðsíða 523
Blaðsíða 524
Blaðsíða 525
Blaðsíða 526
Blaðsíða 527
Blaðsíða 528
Blaðsíða 529
Blaðsíða 530
Blaðsíða 531
Blaðsíða 532
Blaðsíða 533
Blaðsíða 534
Blaðsíða 535
Blaðsíða 536
Blaðsíða 537
Blaðsíða 538
Blaðsíða 539
Blaðsíða 540

x

Bibliotheca Arnamagnæana. Supplementum

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Bibliotheca Arnamagnæana. Supplementum
https://timarit.is/publication/1672

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.