Digitalizacija/minimalne zahteve za kakovost

Iz eVsebine
Skoči na: navigacija, iskanje

Vsebina

Minimalne zahteve za zagotavljanje kakovosti digitalizacije vsebin s področja kulturne dediščine

[osnutek]

Namen dokumenta

Namen tega dokumenta je določiti minimalne zahteve za zagotavljanje kakovosti digitalizacije kulturne dediščine, ki se financira z javnimi sredstvi ter tako poenotiti ustvarjanje digitalnih vsebin na ravni celotnega kulturnega sektorja. Dokument temelji na stališču, da se kakovost digitalnih objektov, ustvarjenih v procesu digitalizacije kulturne dediščine lahko določi le v skladu s predvideno uporabo teh objektov – za zagotavljanje dostopnosti do digitaliziranih vsebin, za trajno hranjenje digitaliziranih vsebin. Zagotavljanje kakovosti je opredeljeno kot pristop do dela, in ne kot zunanji sistem za testiranje kakovosti rezultatov digitalizacije.

Dokument vsebuje minimalne zahteve za zagotavljanje kakovosti v procesu digitalizacije. Zahteve so predstavljene glede na vrsto gradiv, ki jih hranijo dediščinske institucije. Namenjene so vsem ustvarjalcem digitalnih vsebin kot smernice v fazi načrtovanja digitalizacije in kot najmanjši skupni imenovalec za zagotavljanje kakovosti v procesu digitalizacije.

Splošna priporočila

Proces digitalizacije mora zagotoviti zajem celotne informacije, ki je vsebovana v fizičnem oziroma analognem objektu. To pomeni, da vse semantične in vizualne informacije, ki jih vsebujejo fizična gradiva morajo dobiti svojo digitalno različico. Mora biti mogoče prebrati celotno besedilo v digitalni kopiji knjige, revije, časopisa, rokopisa oziroma kateregakoli drugega besedilnega dokumenta, vključno s knjigami in revijami, ki se zaradi vezave ne morejo razpreti. Prav tako mora biti mogoče videti vse podrobnosti na fotografijah, ilustracijah, umetniških slikah, grafikonih in zemljevidih, ki so potrebne za razumevanje sporočila vsebovanega v gradivu. Zvočni oziroma video posnetek posnetek mora biti digitaliziran v celoti. Tridimenzionalni objekt naj bi bil zajet s postopki 3D digitalizacije, v digitalni različici naj bi ga bilo možno ogledati z vseh strani, tako kot v realnem fizičnem prostoru.

Pred digitalizacijo je treba pregledati stanje gradiva in preveriti, če je potrebno popravilo ali restavriranje. V primeru poškodovanega gradiva (poškodovane strani, praske na slikah, praske na vinilnih ploščah, itd.) je priporočljivo, da restavratorji pripravijo gradivo za digitalizacijo, restavrirajo pa ga po opravljeni digitalizaciji. V takih primerih je primer dobre prakse, poiskati drugi, bolj ohranjen izvod gradiva, seveda v primerih, ko je to mogoče, v drugih ustanovah, npr. knjižnicah, in ga uporabiti za digitalizacijo.

Smernice za digitalizacijo besedil

Knjige


Knjige morajo biti digitalizirane v celoti. V nobenem primeru ni primerna digitalizacija le dela knjige (poglavja ali zvezka v primeru knjižnega dela objavljenega v več zvezkih). Tudi prazne strani je treba digitalizirati. Celotno strukturo knjige je treba prenesti v digitalno obliko, vključno z vsemi, uvodnimi in zaključnimi, stranmi ne le tistimi, na katerimi je natisnjena vsebina dela. Morebitne manjkajoče strani v knjigi je treba navesti (popisati) v metapodatkovnem opisu. Priporočljivo je tudi digitalizirati ovitek knjige. Digitalizirati je treba tudi knjižne priloge ter jih povezati s pomočjo metapodatkov z ustrezno bibliografsko enoto.

Ločljivost

Minimalna: 300 dpi.
Priporočljiva: 400-600 dpi, (600dpi za A6 ali manjše formate).

Za digitalizacijo zelo majhnih pisav, ki jih običajno najdemo v manjših knjižnih formatih (npr. A6 [148 × 105 mm] ali manjši) je nujna uporaba višje ločljivosti. Pravilo: če je x-višina pisave (višina črke x) ≤ 5 pt, je potrebna večja ločljivost za dober rezultat optične prepoznave besedila.

Barvna globina

Minimalna:

  • 1 bit za strani z besedilom in half-tone ilustracije [half-tone illustrations / prevod?], kadar je to mogoče (zelo dober tisk): dobri rezultati pri tej konfiguraciji so v veliki meri odvisni od vrste knjige, kot tudi zmogljivosti izvajalca digitalizacije, sicer pa je priporočljiva 8 bitna barvna globina;
  • 8 bitna sivinska lestvica za sivinsko digitalizacijo;
  • 24 bitna (ali višja) barvna lestvica za digitalizacijo v barvah.

Priporočljiva: 24 bitna (ali višja) barvna lestvica.

Splošno priporočilo: Knjige objavljene pred letom 1800 bi bilo smotrno digitalizirati barvno. Prav tako je smotrno barvno digitalizirati ovitek knjige.

Slikovni formati

Priporočeni formati:

  • TIFF Group IV za 1 bitne slike,
  • TIFF,
  • RGB,
  • JPEG,
  • JPEG2000,
  • PNG.

Stiskanje

S .tiff datotekami je priporočljiva uporaba brezizgubnega LZW stiskanja. Pri .jpg datotekah največje stiskanje ne sme presegati 10 %. Če je dokument v izvirno digitalen s 100% optično prepoznavo besedila je priporočljiva uporaba TIFF Group IV (1 bit).

Obdelava slike

Dvojne strani je potrebno razdeliti na posamezne strani. Celotno besedilo mora biti vidno na posamezni sliki. Izjeme: zemljevidi, članki, ki se raztezajo čez dve strani, itd. Obrezane strani naj bi bile enake velikosti. Naslednji procesi se morajo opraviti na vseh slikah: poravnava (deskewing), obrezovanje (trim) in korekcija nagiba perspektive (shift). Priporočljiva so tudi druga izboljšanje kvalitete slike.

Poimenovanje datotek

Poimenovanje datotek je odgovornost ustanov v skladu z njihovo politiko izvedbe digitalizacije. Če se več ustanov odloči za skupni projekt digitalizacije istovrstnega gradiva, je smotrno, da predhodno poenotijo način digitalizacije vključno s poimenovanjem datotek.

Optična prepoznava besedila (OCR)

Digitalizirane knjige, ki so izšle po letu 1800 je treba obdelati s postopki optične prepoznave besedila (OCR). Možnosti uporabe OCR za digitalizirane knjige izšle med 1700 in 1800 je treba preveriti od primera do primera.

Formati za zagotavljanje dostopnosti

Posamezna knjiga v PDF formatu (ali niz PDF datotek v primeru več volumnov knjige) mora vsebovati celotno vsebino izvirnika. Minimalna ločljivost PDF datoteke mora biti najmanj 150 dpi, č/b, sivinsko ali barvno. Ločljivosti slike izhodnega PDF-a mora biti enaka resoluciji slike vhodnih datotek. Slike morajo imeti najmanj 90% kakovost JPEG datoteke, če so PDF datoteke bile izdelane na podlagi stisnjenih JPEG datotek. Priporočljivo: brezizgubno stiskanje slik znotraj PDF; možnost zaznamkov v PDF.


Serijske publikacije (časniki, časopisi, revije)


Serijske publikacije (časniki, časopisi, revije ...) morajo biti digitalizirane v celoti. V nobenem primeru ni primerna digitalizacija le dela periodične publikacije (zlasti ne le ene ali več strani ali zvezka). Prazne strani je tudi potrebno digitalizirati. Strukturo serijske publikacije z vsemi stranmi moramo ohraniti v digitalni obliki. Manjkajoče strani v posamezni številki zvezka je treba označiti v metapodatkovnem opisu. Priporočljivo je digitalizirati tudi ovitek, naslovnico in druge strani, ki predhodijo prvi tiskani strani serijske publikacije. Vse priloge je treba vključiti v digitalizacijo in jih s pomočjo metapodatkov povezati z ustrezno bibliografsko enoto.

Ločljivost

Minimalna: 300 dpi.
Priporočljiva: 400-600 dpi.

Barvna globina

Minimalna:

  • 1 bit za strani z besedilom in half-tone ilustracije, kadar je to mogoče (zelo dober tisk): dobri rezultati pri tej konfiguraciji so v veliki meri odvisni od vrste knjige, kot tudi zmogljivosti izvajalca digitalizacije, sicer pa je priporočljiva 8 bitna barvna globina.
  • 8 bitna sivinska lestvica za sivinsko digitalizacijo;
  • 24 bitna (ali višja) barvna lestvica za digitalizacijo v barvah.

Priporočljiva: 24 bitna (ali višja) barvna lestvica.

Splošno priporočilo: Serijske publikacije pred 1800 je smotrno digitalizirati barvno.

Slikovni formati

Priporočeni formati:

  • TIFF Group IV for 1 Bit images,
  • TIFF,
  • RGB,
  • JPEG,
  • JPEG2000,
  • PNG.

Stiskanje

S .tiff datotekami je priporočljiva uporaba brez izgubne LZW kompresije. Pri .jpg datotekah največja kompresije ne sme presegati 10 %. Če je dokument v izvirno digitalen z 100% optično prepoznavo besedila je priporočljiva uporaba TIFF Group IV (1 bit).

Obdelava slike

Dvojne strani je potrebno razdeliti na posamezne strani. Celotno besedilo mora biti vidno na posamezni sliki. Izjeme: zemljevidi, članki, ki se raztezajo čez dve strani, itd. Obrezane strani naj bi bile enake velikosti. Naslednji procesi se morajo opraviti na vseh slikah: poravnava (deskewing), obrezovanje (trim) in korekcija nagiba perspektive (shift). Priporočljiva so tudi druga izboljšanje kvalitete slike.

Poimenovanje datotek

Poimenovanje datotek je odgovornost ustanov v skladu z njihovo politiko izvedbe digitalizacije. Če se več ustanov odloči za skupni projekt digitalizacije istovrstnega gradiva, je smotrno, da predhodno poenotijo način digitalizacije vključno s poimenovanjem datotek.

Optična prepoznava besedila (OCR)

Serijske publikacije, ki so izšle po letu 1800 je treba obdelati s postopki optične prepoznave besedila (OCR). Možnosti uporabe OCR za digitalizirane serijske publikacije izšle med 1700 in 1800 je treba preveriti od primera do primera.

Formati za zagotavljanje dostopnosti

Posamezna številka serijske publikacije v PDF formatu mora vsebovati celotno vsebino izvirnika. Minimalna ločljivost PDF datoteke mora biti najmanj 150 dpi, č/b, sivinsko ali barvno. Ločljivosti slike izhodnega PDF-a mora biti enaka resoluciji slike vhodnih datotek. Slike morajo imeti najmanj 90% kakovost JPEG datoteke, če so PDF datoteke bile izdelane na podlagi stisnjenih JPEG datotek. Priporočljivo: brezizgubno stiskanje slik znotraj PDF; možnost zaznamkov v PDF.


Rokopisi


Rokopisi morajo biti digitalizirani v celoti. V nobenem primeru ni primerno digitalizirati le del rokopisa (npr. posamezno stran(-i)). Tudi prazne in hrbtne strani je treba digitalizirati. Izjemo lahko naredimo le v primeru zapovrstja večjega števila praznih strani. Celotno strukturo rokopisa moramo ohraniti in prenesti v digitalno obliko. Morebitne manjkajoče strani v rokopisu morajo biti navedene (popisane) v metapodatkovnem opisu. Priporočljivo je tudi digitalizirati vezavo oziroma začeti proces digitalizacije s prvo popisano stranjo rokopisa. Digitalizirati je treba tudi vse dodatke in priloge ter jih povezati s pomočjo metapodatkov z ustrezno bibliografsko enoto.

Ločljivost

Minimalna: 300 dpi.
Priporočljiva: 400-600 dpi.

Barvna globina

Minimalna:

  • 8 bitna sivinska lestvica za sivinsko digitalizacijo;
  • 24 bitna (ali višja) barvna lestvica za digitalizacijo v barvah.

Priporočljiva: 24 bitna (ali višja) barvna lestvica.

Splošno priporočilo: Rokopisi naj bi bili barvno skenirani, vključno z vezavo.

Slikovni formati

Priporočeni formati:

  • TIFF,
  • RGB,
  • JPEG,
  • JPEG2000,
  • PNG,
  • GeoTIFF.

Stiskanje

S .tiff datotekami je priporočljiva uporaba brez izgubne LZW kompresije. Pri .jpg datotekah največja kompresije ne sme presegati 0 % - brez kompresije.

Obdelava slike

Dvojne strani je potrebno razdeliti na posamezne strani. Celotno besedilo mora biti vidno na posamezni sliki.

Izjeme: zemljevidi, članki, ki se raztezajo čez dve strani, itd. Obrezane strani naj bi bile enake velikosti.

Naslednji procesi se morajo opraviti na vseh slikah: poravnava (deskewing), obrezovanje (trim) in korekcija nagiba perspektive (shift). Priporočljiva so tudi druga izboljšanje kvalitete slike.

Poimenovanje datotek

Poimenovanje datotek je odgovornost ustanov v skladu z njihovo politiko izvedbe digitalizacije. Če se več ustanov odloči za skupni projekt digitalizacije istovrstnega gradiva, je smotrno, da predhodno poenotijo način digitalizacije vključno s poimenovanjem datotek.

Optična prepoznava besedila (OCR)

Običajno ni možna.

Formati za zagotavljanje dostopnosti

Celoten rokopis ali rokopisni zvezek v PDF formatu mora vsebovati celotno vsebino izvirnika. Minimalna ločljivost PDF datoteke mora biti najmanj 150 dpi, č/b, sivinsko ali barvno. Ločljivosti slike izhodnega PDF-a mora biti enaka resoluciji slike vhodnih datotek. Slike morajo imeti najmanj 90% kakovost JPEG datoteke, če so PDF datoteke bile izdelane na podlagi stisnjenih JPEG datotek. Priporočljivo: brezizgubno stiskanje slik znotraj PDF; možnost zaznamkov v PDF.


Različna dvodimenzionalna gradiva (glasbeni tiski, zemljevidi, fotografije, gravure / odtisi, risbe, plakati, razglednice)


Ločljivost

Minimalna: 300 dpi.
Priporočljiva: 400-600 dpi.

Barvna globina

Minimalna:

  • 8 bitna sivinska lestvica za sivinsko digitalizacijo;
  • 24 bitna (ali višja) barvna lestvica za digitalizacijo v barvah.

Priporočljiva: 24 bitna (ali višja) barvna lestvica.

Slikovni formati

Priporočeni formati:

  • TIFF,
  • RGB,
  • JPEG,
  • JPEG2000,
  • PNG,
  • GeoTIFF.

Stiskanje

S .tiff datotekami je priporočljiva uporaba brez izgubne LZW kompresije. Pri .jpg datotekah največja kompresije ne sme presegati 10 %.

Obdelava slike

Slika naj bo na enem skenu, če je možno (verjetno ni mogoče, pri skeniranju velikih formatov zemljevidov, A1 ali večjih). Naslednji procesi se morajo opraviti na vseh slikah: poravnava (deskewing), obrezovanje (trim) in korekcija nagiba perspektive (shift). Priporočljiva so tudi druga izboljšanje kvalitete slike, vsaj eno slika v seriji mora imeti barvno lestvico skenirano na dnu slike.

Poimenovanje datotek

Poimenovanje datotek je odgovornost ustanov v skladu z njihovo politiko izvedbe digitalizacije. Če se več ustanov odloči za skupni projekt digitalizacije istovrstnega gradiva, je smotrno, da predhodno poenotijo način digitalizacije vključno s poimenovanjem datotek.

Optična prepoznava besedila (OCR)

Običajno ni možna.

Formati za zagotavljanje dostopnosti

  • TIFF,
  • RGB,
  • JPEG,
  • JPEG2000,
  • PNG,
  • GeoTIFF.


Avdio posnetki (glasbeni in drugi zvočni posnetki)


Master datoteke

Minimalno: MPEG-2 Audio Layer III (mp3), vsaj 192 kbps (vbr) ali drugi izgubni sistemi kodiranja za digitalni audio (ogg vorbis, MPEG-2 Audio AAC, MPEG-4 Audio AAC).
Priporočljivo: WAV; Flac; BWF, 96KHz, 24 bit.

Zvočni formati

Priporočeni formati:

  • WAV,
  • MPEG-2 Audio Layer III (mp3),
  • MPEG-2 Audio AAC,
  • MPEG-4 Audio AAC.

Stiskanje

Običajno, stiskanje naj se ne bi uporabljalo (wav datoteka). V primeru uporabe kompresije, brez izgubni algoritmi so bolj zaželjeni kot izgubni (flac). Mp3 mora biti vsaj 128 kbps (vbr).

Priporočljivo: mp3, vsaj 160 kbps (vbr). Dobra rešitev je flac brezizgubna kompresija audio podatkov.

Poimenovanje datotek

Poimenovanje datotek je odgovornost ustanov v skladu z njihovo politiko izvedbe digitalizacije. Če se več ustanov odloči za skupni projekt digitalizacije istovrstnega gradiva, je smotrno, da predhodno poenotijo način digitalizacije vključno s poimenovanjem datotek.

Optična prepoznava besedila (OCR)

Običajno ni možna. Vendar, pri zvočnih zapisih govora (govorne oddaje, intervjuji itd.) je priporočljivo zagotoviti transkripcijo govorjenega besedila. Prav tako pri posnetkih vokalnih ali vokalno instrumentalnih del je smotrno zagotoviti transkripcijo petega besedila.

Formati za zagotavljanje dostopnosti

  • Mp3,
  • AAC,
  • Ogg Vorbis,
  • Flac,
  • Wav.

Slike (umetniške slike ...)

Drugi dvo-dimenzionalni predmeti

Tri-dimenzionalni predmeti (umetniška dela, drugi predmeti narejeni s človeško roko ...)

Spomeniki in spomeniška območja

Filmi

Video posnetki

Metapodatki

Metapodatki morajo biti v skladu s specifikacijami, ki so objavljene na spletnem mestu Europeana professional (http://pro.europeana.eu/web/guest/provide-data). Priporočljivo je, da bibliografski opisi digitalnih objektov vključujejo enotne identifikatorje kot je URN (Uniform Resource Name) in, če je mogoče, enotni identifikator vira (URI: Uniform Resource Identifier) vpisan v lokalni informacijski sistem (npr. COBISS OPAC). Poleg tega, je priporočljivo, da metapodatki na enoten način kažejo, kateri sken naj bo prikazan kot predogledna sličica (thumbnail) ob metapodatkovnem opisu. To bi odpravilo pojavljanje praznih strani kot predoglednih sličic in, v primeru objave na portalu Europeane, omogočilo zagotavljanje "europeana:object" elementa brez težav.

Prav tako je nujno zagotoviti že ob procesih digitalizacije tudi metapodatke, ki so potrebni za trajno hranjenje digitalnih objektov.

Priloge

Priloga 1: Primerjalna tabela tipologij

Primerjalna tabela tipologij gradiv kulturne dediščine iz vprašalnika projekta ENUMERATE in tipologije gradiv uporabljene v Priporočilu komisije z dne 27. 10. 2011. (http://www.enumerate.eu/fileadmin/ENUMERATE/documents/NUMERIC_DEFINITIONS_SLOVENIAN.pdf Slovenska tipologija)

Definicije: http://www.enumerate.eu/fileadmin/ENUMERATE/documents/NUMERIC_DEFINITIONS_SLOVENIAN.pdf

Priloga 2: Oblike zapisa za dolgoročno hrambo.

Prevzeto iz Enotne tehnološke zahteve. 1. del, Uvodna poglavja in priloge. Različica 2.0. Ljubljana, 6. april 2011 (http://www.arhiv.gov.si/fileadmin/arhiv.gov.si/pageuploads/zakonodaja/ETZ_2_0_-_1_del_razlicica_2.0.pdf).