Bibliotheca Arnamagnæana. Supplementum - 01.06.2013, Síða 65

Bibliotheca Arnamagnæana. Supplementum - 01.06.2013, Síða 65
Elektronisk databehandling og filologiske detailstudier 37 1 sed -r -e :a -e '$!N; s/\n//g; ta' -e 'sI(</w>)I\l\n|g' |\ 2 sed -r -e 'sI.*<me:facs>(.*)</me:facs>.*<me:norm>(.*)</me:norm>.*|\1 (\2)|' \ 3 -e 'sI</?am>IIg' |\ 4 sort I uniq -c |\ 5 sed -r -e 's/ +?(\d)/0000\l/' -e 's/0000(\d\d\d\d\d)/\l/' \ 6 -e 's/0000(\d\d\d\d)/0\l/' -e 's/0000(\d\d\d)/00\l/' \ 7 -e 's/0000(\d\d)/000\1/' l\ 8 sort -r |\ 9 sed -r -e 's/~0000/ /' -e 's/~000/ /' -e 's/~00/ /' -e 's/~0000/ /' Figur 2.1: Scriptet “frekvensliste” af uoverskuelighed og besvær ved opmærkning og efterfpl- gende spgninger.1 En anden ulempe er at spgning pá karak- teristika som er fælles (eller forskellige) for flere graftyper eller -klasser i bedste fald er meget vanskelig, hvilket ikke blot er et teknisk, men ogsá et metodisk problem. Endelig má det bemærkes at opbygningen af et simpelt beskrivel- sesapparat og justering af klassificeringerne i opbygnings- fasen er tilsvarende vanskelig — man skal sá at sige pá for- hánd have klarlagt en meget stor del af den palæografiske variation. 2.4.3 Analysefasen Den stprste fordel ved at basere analysen pá en opmær- ket tekst er at forskellige informationer let lader sig ek- strahere i analysefasen. Enhver der manuelt har excerperet en længere tekst for et eller flere givne træk, ved hvor tids- krævende et sádant arbejde er, og teksten skal ikke være ret lang fpr det reelt er hurtigere at foretage en indledende tekstopmærkning og basere excerperingen pá denne. En excerpering der baserer sig pá en elektronisk opmærket tekst, kan betragtes som en “on the fly” excerpering, og en stor fordel ved en sádan, og det som mest udpræget ad- skiller tilgangen fra traditionel manuel excerpering, er at præmisserne hele tiden kan ændres. Finder man ud af at et nyt træk er interessant at underspge, er det blot et spprgs- mál om at ændre kriterierne for programmet som udfprer excerperingen. Man behpver ikke begynde forfra med en genlæsning af kilden. Alle lag i den samlede analyse har udnyttet den elektro- niske opmærkning, men graden af efterfplgende manuel bearbejdning har varieret afhængigt af graden af overens- stemmelse mellem opmærkning og analysernes perspektiv. Da XML-filen indeholder en komplet morfosyntaktisk opmærkning af samtlige ord, lader en fuldstændig morfo- logisk beskrivelse af MskMS sig forholdsvis enkelt gene- rere, og i underspgelsen af sável forskelle mellem de to skri- vere som den interne variation hos den enkelte skriver ud- nyttes den morfosyntaktiske opmærkning i vid udstræk- ning. Den morfosyntaktiske opmærkning danner naturlig- 1 Det vil til n0d kunne gá ved unders0gelse af et enkelt hándskrift, men en given opmærkningspraksis skal meget gerne kunne appliceres pá et stprre tekstkorpus, fx ved opbygningen af en palæografisk database. vis ogsá grundlag for de detaljerede morfologiske oversig- ter i kapitel 5. Et eksempel pá hvorledes dette kan finde praktisk an- vendelse, skal her anfpres. Forudsat at teksten er opmærket efter retningslinjerne i Haugen (2008), kan en frekvensli- ste over eksempelvis alle mediopassive præteritumformer i 3. pers. sg. genereres pá fplgende vis pá et GNU/linux kompatibelt system: egrep 'tPT.*?p3 nS vR' I frekvensliste Fprst findes alle linjer som indeholder den korrekte grammatiske information med egrep-kommandoen, og resultatet sendes ved hjælp af en pipeline (I) videre til kom- mandoen frekvensliste, der er et selvstændigt script, som kan genbruges i lignende tilfælde. Dets indhold er fremgár af figur 2.1 (linjenumre indsat for overskuelighe- dens skyld). En s0g & erstat funktion sprger i linje 1 for at hvert word-element stár pá hver sin linje. Linje 2 fjerner deref- ter alt andet end facs- og wom-niveauet og anbringer det sidste i parentes, inden alle markeringer af abbreviaturer fjernes i linje 3/ Derpá sendes resultatet videre til sort kommandoen (linje 4), der sorterer samtlige tilfælde in- den uniq -c fjerner alle dobbeltposter og angiver antal forekomster for hver manifestation. Linje 5-7, der kunne skrives mere elegant, sprger derefter for indsættelsen af et korrekt antal nuller foran de af uniq -c genererede talan- givelser, sáledes at alle talangivelser indeholder lige mange cifre. Dette er npdvendigt for at sort -r kommandoen, der sorterer listen i omvendt rækkefplge, kan producere en korrekt frekvensordnet liste inden de indsatte nuller fjer- nes igen i linje 9. Det samlede resultat bliver en liste som den efterfplgende: 38 letzc (lézk) 13 þottiz (þóttisk) 13 fýnðiz (sýndisk) 12 barfc (barsk) 2 Fjernelse eller omformatering af andet, fx markeringer af utydeligt læ- ste grafer, kan naturligvis inkorporeres pá tilsvarende vis. 2.4.3
Síða 1
Síða 2
Síða 3
Síða 4
Síða 5
Síða 6
Síða 7
Síða 8
Síða 9
Síða 10
Síða 11
Síða 12
Síða 13
Síða 14
Síða 15
Síða 16
Síða 17
Síða 18
Síða 19
Síða 20
Síða 21
Síða 22
Síða 23
Síða 24
Síða 25
Síða 26
Síða 27
Síða 28
Síða 29
Síða 30
Síða 31
Síða 32
Síða 33
Síða 34
Síða 35
Síða 36
Síða 37
Síða 38
Síða 39
Síða 40
Síða 41
Síða 42
Síða 43
Síða 44
Síða 45
Síða 46
Síða 47
Síða 48
Síða 49
Síða 50
Síða 51
Síða 52
Síða 53
Síða 54
Síða 55
Síða 56
Síða 57
Síða 58
Síða 59
Síða 60
Síða 61
Síða 62
Síða 63
Síða 64
Síða 65
Síða 66
Síða 67
Síða 68
Síða 69
Síða 70
Síða 71
Síða 72
Síða 73
Síða 74
Síða 75
Síða 76
Síða 77
Síða 78
Síða 79
Síða 80
Síða 81
Síða 82
Síða 83
Síða 84
Síða 85
Síða 86
Síða 87
Síða 88
Síða 89
Síða 90
Síða 91
Síða 92
Síða 93
Síða 94
Síða 95
Síða 96
Síða 97
Síða 98
Síða 99
Síða 100
Síða 101
Síða 102
Síða 103
Síða 104
Síða 105
Síða 106
Síða 107
Síða 108
Síða 109
Síða 110
Síða 111
Síða 112
Síða 113
Síða 114
Síða 115
Síða 116
Síða 117
Síða 118
Síða 119
Síða 120
Síða 121
Síða 122
Síða 123
Síða 124
Síða 125
Síða 126
Síða 127
Síða 128
Síða 129
Síða 130
Síða 131
Síða 132
Síða 133
Síða 134
Síða 135
Síða 136
Síða 137
Síða 138
Síða 139
Síða 140
Síða 141
Síða 142
Síða 143
Síða 144
Síða 145
Síða 146
Síða 147
Síða 148
Síða 149
Síða 150
Síða 151
Síða 152
Síða 153
Síða 154
Síða 155
Síða 156
Síða 157
Síða 158
Síða 159
Síða 160
Síða 161
Síða 162
Síða 163
Síða 164
Síða 165
Síða 166
Síða 167
Síða 168
Síða 169
Síða 170
Síða 171
Síða 172
Síða 173
Síða 174
Síða 175
Síða 176
Síða 177
Síða 178
Síða 179
Síða 180
Síða 181
Síða 182
Síða 183
Síða 184
Síða 185
Síða 186
Síða 187
Síða 188
Síða 189
Síða 190
Síða 191
Síða 192
Síða 193
Síða 194
Síða 195
Síða 196
Síða 197
Síða 198
Síða 199
Síða 200
Síða 201
Síða 202
Síða 203
Síða 204
Síða 205
Síða 206
Síða 207
Síða 208
Síða 209
Síða 210
Síða 211
Síða 212
Síða 213
Síða 214
Síða 215
Síða 216
Síða 217
Síða 218
Síða 219
Síða 220
Síða 221
Síða 222
Síða 223
Síða 224
Síða 225
Síða 226
Síða 227
Síða 228
Síða 229
Síða 230
Síða 231
Síða 232
Síða 233
Síða 234
Síða 235
Síða 236
Síða 237
Síða 238
Síða 239
Síða 240
Síða 241
Síða 242
Síða 243
Síða 244
Síða 245
Síða 246
Síða 247
Síða 248
Síða 249
Síða 250
Síða 251
Síða 252
Síða 253
Síða 254
Síða 255
Síða 256
Síða 257
Síða 258
Síða 259
Síða 260
Síða 261
Síða 262
Síða 263
Síða 264
Síða 265
Síða 266
Síða 267
Síða 268
Síða 269
Síða 270
Síða 271
Síða 272
Síða 273
Síða 274
Síða 275
Síða 276
Síða 277
Síða 278
Síða 279
Síða 280
Síða 281
Síða 282
Síða 283
Síða 284
Síða 285
Síða 286
Síða 287
Síða 288
Síða 289
Síða 290
Síða 291
Síða 292
Síða 293
Síða 294
Síða 295
Síða 296
Síða 297
Síða 298
Síða 299
Síða 300
Síða 301
Síða 302
Síða 303
Síða 304
Síða 305
Síða 306
Síða 307
Síða 308
Síða 309
Síða 310
Síða 311
Síða 312
Síða 313
Síða 314
Síða 315
Síða 316
Síða 317
Síða 318
Síða 319
Síða 320
Síða 321
Síða 322
Síða 323
Síða 324
Síða 325
Síða 326
Síða 327
Síða 328
Síða 329
Síða 330
Síða 331
Síða 332
Síða 333
Síða 334
Síða 335
Síða 336
Síða 337
Síða 338
Síða 339
Síða 340
Síða 341
Síða 342
Síða 343
Síða 344
Síða 345
Síða 346
Síða 347
Síða 348
Síða 349
Síða 350
Síða 351
Síða 352
Síða 353
Síða 354
Síða 355
Síða 356
Síða 357
Síða 358
Síða 359
Síða 360
Síða 361
Síða 362
Síða 363
Síða 364
Síða 365
Síða 366
Síða 367
Síða 368
Síða 369
Síða 370
Síða 371
Síða 372
Síða 373
Síða 374
Síða 375
Síða 376
Síða 377
Síða 378
Síða 379
Síða 380
Síða 381
Síða 382
Síða 383
Síða 384
Síða 385
Síða 386
Síða 387
Síða 388
Síða 389
Síða 390
Síða 391
Síða 392
Síða 393
Síða 394
Síða 395
Síða 396
Síða 397
Síða 398
Síða 399
Síða 400
Síða 401
Síða 402
Síða 403
Síða 404
Síða 405
Síða 406
Síða 407
Síða 408
Síða 409
Síða 410
Síða 411
Síða 412
Síða 413
Síða 414
Síða 415
Síða 416
Síða 417
Síða 418
Síða 419
Síða 420
Síða 421
Síða 422
Síða 423
Síða 424
Síða 425
Síða 426
Síða 427
Síða 428
Síða 429
Síða 430
Síða 431
Síða 432
Síða 433
Síða 434
Síða 435
Síða 436
Síða 437
Síða 438
Síða 439
Síða 440
Síða 441
Síða 442
Síða 443
Síða 444
Síða 445
Síða 446
Síða 447
Síða 448
Síða 449
Síða 450
Síða 451
Síða 452
Síða 453
Síða 454
Síða 455
Síða 456
Síða 457
Síða 458
Síða 459
Síða 460
Síða 461
Síða 462
Síða 463
Síða 464
Síða 465
Síða 466
Síða 467
Síða 468
Síða 469
Síða 470
Síða 471
Síða 472
Síða 473
Síða 474
Síða 475
Síða 476
Síða 477
Síða 478
Síða 479
Síða 480
Síða 481
Síða 482
Síða 483
Síða 484
Síða 485
Síða 486
Síða 487
Síða 488
Síða 489
Síða 490
Síða 491
Síða 492
Síða 493
Síða 494
Síða 495
Síða 496
Síða 497
Síða 498
Síða 499
Síða 500
Síða 501
Síða 502
Síða 503
Síða 504
Síða 505
Síða 506
Síða 507
Síða 508
Síða 509
Síða 510
Síða 511
Síða 512
Síða 513
Síða 514
Síða 515
Síða 516
Síða 517
Síða 518
Síða 519
Síða 520
Síða 521
Síða 522
Síða 523
Síða 524
Síða 525
Síða 526
Síða 527
Síða 528
Síða 529
Síða 530
Síða 531
Síða 532
Síða 533
Síða 534
Síða 535
Síða 536
Síða 537
Síða 538
Síða 539
Síða 540

x

Bibliotheca Arnamagnæana. Supplementum

Beinleiðis leinki

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Bibliotheca Arnamagnæana. Supplementum
https://timarit.is/publication/1672

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.