Národní knihovna: V úložišti máme 270 TB dat, digitalizováno je téměř 56 milionů stran

15. 7. 2019

Doba čtení: 19 minut

Národní knihovna spustila před několika lety velký projekt digitalizace novodobých tisků. Z plánovaných 310 milionů stran je zatím digitalizováno necelých 56 milionů, říkají odborníci, kteří mají projekt na starost.

Na velkolepém projektu se podílí hned několik oddělení Národní knihovny. Rozhovoru se tedy zúčastnili ředitel Odboru správy fondů Tomáš Foltýn, ředitel Odboru digitalizace Petr Kukač a ředitelka odboru digitálních fondů Zuzana Kvašová.

Rozsáhlý rozhovor zabral téměř hodinu a půl a nakonec jsme se ho kvůli délce rozhodli rozdělit na dvě části. Dnes vám nabízíme první díl, který se týká digitalizace a ukládání získaných dat. Druhou část rozhovoru vydáme v pátek.

Kdy přesně začal projekt digitalizace? Našel jsem zmínku, že to bylo v roce 2012. Je to tak?

Petr Kukač (PK): Projekt Národní digitální knihovny oficiálně odstartoval v roce 2010 a skončil k 31. 12. 2014. Měl několik etap a v rámci realizační etapy po nákupu hardwaru a vývoji softwarové části byl zahájen první pilotní provoz v polovině roku 2012, kdy vlastně docházelo k základnímu testování. Vlastní digitalizace probíhá od druhého pololetí 2013.

Tomáš Foltýn (TF): Digitalizace novodobých dokumentů má v Národní knihovně ČR mnohem starší historii. Když budu mluvit o největších milnících, které jsou s digitalizací novodobých dokumentů spojeny, tak je dobré připomenout stav po povodních v letech 2001–2002, když se i za podpory ministerstva kultury a nově vytvořeného dotačního programu VISK (aktuální informace o programu VISK jsou zde, pozn. red.) začal rozbíhat proces ochranného reformátování, ve kterém se z obavy před poškozením fyzických dokumentů začalo s jejich transformací do jiné podoby.

V první fázi bylo toto reformátování spojené zejména s vytvářením mikrofilmů, poté se technologie dále posunula k takzvanému hybridnímu snímkování, kdy se díky modernímu vybavení, které Národní knihovna měla k dispozici, daly pořizovat snímky v digitální i mikrofilmové kopii. To probíhalo několik let a pak, jak říkal pan inženýr Kukač, začala Národní knihovna uvažovat o spuštění velkého projektu zaměřeného jenom na digitalizaci fondů.

Poté, co projekt prošel přípravnou fází a dostal se do realizační etapy, se upustilo od technologie mikrofilmů, protože byla finančně neudržitelná. Do dnešní doby nicméně existují debaty o tom, zda se mají instituce typu Národní knihovna spoléhat jen na digitální technologii, když nejsou jednoznačné informace o limitech archivace digitálního dokumentu. U mikrofilmů přece jenom jsou třicetileté až čtyřicetileté zkušenosti, že tato technologie může sloužit jako archivační médium. Nicméně toto rozhodnutí, přijaté nejen z finančních důvodů, je stále v platnosti a na činnosti realizované prostřednictvím projektu Národní digitální knihovna nemá přímý vliv.

Jaké dokumenty se skenují?

Autor: Jan Vaca

Petr Kukač, ředitel Odboru digitalizace Národní knihovny ČR

Stanovili jste si od začátku, co budete přednostně u novodobých tisků digitalizovat? Existuje nějaký klíč, podle kterého postupujete?

PK: Skenuje se veškerá novodobá bohemikální produkce od roku 1800. Původně bylo stanoveno jen do konce 20. století, ale tato hranice není pevná a digitalizuje se i současná produkce.

TF: Tato otázka je složitější, protože k rozdělení dokumentů na historické a novodobé fondy existuje vícero výkladů. Pro potřeby digitalizace byl za zlom zvolen rok 1800. Mladší dokumenty považujeme již za novodobé. V rámci linky NDK (Národní digitální knihovna), která už byla zmiňována, digitalizujeme kompletní bohemikální produkci, protože Národní knihovna má vzhledem ke svému poslání a postavení v rámci segmentu knihoven mimo jiné i konzervační funkci. Do budoucna bychom tak neměli rozhodovat, který dokument má, či nemá být digitalizován, protože musíme ochraňovat celé bohemikální knižní dědictví.

Při výběru dokumentů pro digitalizace ale hrají roli samozřejmě i další faktory. Snažíme se v prvé řadě digitalizovat dokumenty, které jsou ohroženy rozpadem fyzického nosiče. V minulých letech se digitalizovaly zejména dokumenty z 19. století, protože papír, na kterém jsou tištěné, patří mezi materiály citelně ohrožené degradací. Samozřejmě se přizpůsobujeme také požadavkům dalších knihoven a chceme samozřejmě mít plné vytížení skenovací jednotky.

PK: Ten výběr je prostě vícekriteriální. Cílem projektu ale je, alespoň podle toho, jak byl zadán, že se zdigitalizuje nejméně 310 milionů stran. Je to běh na dlouhou trať, odhad byl, že digitalizace bude trvat 40 let. Do kalkulací samozřejmě nemohla být zahrnuta novodobá produkce. Čili ta skenovací linka by vlastně měla běžet „navždy“. Dnes je to tak, že i kdybychom digitalizovali jen běžný přírůstek, ta linka by jela naplno i tak.

Autor: Jan Vaca

Tomáš Foltýn, ředitel Odboru správy fondů Národní knihovny ČR

TF: V tomto úhlu pohledu je důležitá ta spolupráce s ostatními knihovnami. Přímo na projektu NDK (Národní digitální knihovna, pozn. red.) s námi participuje Moravská zemská knihovna, která má podobně jako my konzervační funkci. A zároveň do procesu digitalizace vstupují i další specializované nebo regionální knihovny, které se snaží digitalizovat svou oborovou literaturu či regionální produkci, kterou už pak my digitalizovat nemusíme a je to tak efektivnější.

Padl tady už údaj o počtu stránek, které chcete naskenovat. Jak jste tento počet odhadovali?

PK: Je to hodně složitá otázka. To číslo je samozřejmě odhad. Vycházeli jsme ale z toho, jak známe náš fond, a víme, kolik stránek se průměrně počítá na jeden svazek. Z hlediska bohemikální produkce máme také k dispozici informace z knihovního katalogu, kde jsou bohužel stále limity způsobené tím, že fond Národní knihovny není pořád kompletně zpracován do úrovně jednotek. To znamená, že se pohybujeme na bázi kvalifikovaných odhadů. Nicméně dříve zmíněné údaje o počtu titulů a svazků jsme měli od správců fondu v momentě, kdy se projekt připravoval. To jsme se snažili přepočítat na počet stran. Jde tedy o verifikovaný kvalifikovaný odhad.

FOTOGALERIE: Digitalizace knih a časopisů v Národní knihovně

Dalších 22 fotografií

Zuzana Kvašová (ZK): Nyní máme naskenováno 55 689 286 stran (k 7. 6. 2019, pozn. red.).

V médiích loni probleskla informace, že jste v tu chvíli byli asi na 50 milionech stran.

PK: To jsou strany, které jsou už zpřístupněny v systému Kramerius. Zahrnuje to tedy úspěšně zpracované tituly. Nezahrnujte to ty, u nichž digitalizace stále probíhá, nebo skončila neúspěšně. Číslo je zároveň výsledkem spolupráce s Moravskou zemskou knihovou, kde také vzniklo digitalizační pracoviště. Podíl produkce je zhruba 50 na 50 a knihovny si navzájem digitalizované dokumenty sdílí. Ta spolupráce je velmi důležitá.

TF: Stále se bavíme jen o produkci v rámci Národní digitální knihovny. V rámci různorodých koncepčních aktivit jsme se v uplynulých letech snažili sčítat dokumenty, které jsou k dispozici napříč celou Českou republikou, a v případě knihoven Kramerius, jejichž instalací je asi 35 napříč zemí, je k dispozici více než 150 milionů stran. Ale nejsou to vždy unikátní strany, někdy si knihovny z důvodu ochrany svého fondu obsah replikují, aby nemusely vynakládat námahu na digitalizaci svazků, které již někdo digitalizoval. V případě unikátních stran jsme na zhruba 80–90 stranách.

Zůstaňme ještě u čísel. Našel jsem, že 310 milionů stran odpovídá zhruba 180 tisícům svazků. Dá se nyní už říct, kolik procent z knih už tedy máte naskenováno?

TF: To se bohužel nedá. Jak už říkal Ing. Kukač, tak se to průběžně hýbe, protože Národní knihovna neustále dokupuje další publikace a jsou tu také povinné výtisky. Fond Národní knihovny prostě neustále roste.

Do jakých formátů se dokumenty skenují?

Jak je to z pohledu dat? Lze říct, kolik dat tvoří jedna naskenovaná stránka?

Autor: Jan Vaca

Zuzana Kvašová, ředitelka Odboru digitálních fondů Národní knihovny ČR.

PK: Dá se to, ale musíte si uvědomit, že jednotlivé publikace nemají stejný formát, tudíž je datový objem vždy jiný. My primárně skenujeme do nekomprimovaného TIFFu. Teď jsem měl například k dispozici jednu publikaci, která se skenovala víceméně na objednávku, jedna strana měla asi 32 MB. A to byl rozměr A4. Jenom tímto jednoduchým přepočtem na A4 se dostáváme na obrovské objemy.
Digitalizujeme publikace od rozměru A6 do rozměru A0, takže aproximovat to úplně nejde, navíc se ta data dál zpracovávají a vznikají jejich další kopie. V rámci zpracování se také některé soubory po úspěšné digitalizaci mažou. Finálně ukládáme v JPEG 2000.

ZK: Nyní máme v úložišti asi 270 TB dat, část z tohoto objemu tvoří data z externích digitalizací, které vznikají v dotačním podprogramu VISK 7. To je podprogram, který koordinuje Národní knihovna a jsou do něj zapojeny jiné knihovny. Tato část tvoří asi 20 TB dat.

Říkali jste, že se dokumenty skenují do TIFF a pak se ukládá v JPEG 2000.

ZK: V podstatě už během digitalizačního procesu dochází k transformaci do JPEG 2000, máme archivní kopii, která je bezeztrátová, a dále generuje uživatelskou kopii, kde dochází ke kompresi v úrovni 80 %.

PK: Právě tato komprimovaná data se používají pro systém Kramerius. V dlouhodobém úložišti jsou ale nekomprimovaná data, která jsou ve formátu JPEG 2000.

TF: Kolegy ještě doplním. Nemůžeme se bavit jen o obrazových souborech. Součástí toho datového balíčku jsou i metadata, vstupují do toho i výstupy OCR technologie. Struktura balíčku je poměrně komplikovaná (standardy NDK najdete zde).

VIDEO: Jak se digitalizují tisky v Národní knihovně

PK: Svázaná periodika mají o několik vrstev hlubší strukturu než monografie. Monografie je titul sám o sobě. Ale ročník nějakého časopisu se skládá z jednotlivých čísel a každé číslo může mít ještě přílohu. Co se týká objemu dat, tak ke každému souboru s obrazem existuje několikasetkilobytový soubor XML a několikasetkilobytový soubor s OCR přepisem textu. Obrazové soubory ale tvoří pořád 99 % datového balíčku.

Kam se digitalizované dokumenty ukládají?

Úložiště je v prostorách Národní knihovny?

PK: Ano, je to v našich prostorách. Data se ukládají na magnetické pásky. Master copy je uložena tady v budově v Hostivaři, kopie je uložena v Klementinu a druhá kopie je v rámci zabezpečení na geograficky odloučeném pracovišti v Brně. Existují tedy tři kopie magnetických pásek.

Proč padlo rozhodnutí právě na magnetické pásky?

PK: Z dlouhodobého hlediska je to ekonomicky nejvýhodnější. Díky opravným mechanismům této technologie od IBM, byť všechno se dá samozřejmě probořit, a díky tomu, že máme soubory uloženy ve třech paré, se to považuje za dostatečně bezpečné uložení.

Nezvažovali jste i uložení u nějakého externího soukromého dodavatele?

PK: V tuhle chvíli spíš zvažujeme, že bychom tohle řešení doplnili o nějaké úložiště, které zajistí trošku pružnější a rychlejší přístup k datům. Získat data z magnetických pásek totiž není v reálném čase možné. I když jsou pásky v primárním úložišti v jedné páskové knihovně, což je vlastně takový „juke box“, kde si to mechanické rameno dokáže najít a přinést požadovanou kazetu s páskou, tak to prostě zabere nějaký čas. Není to nikdy hned a pro některé potřeby rychlých oprav, nebo rychlé získání konkrétních dat, se to nejeví jako dostatečné. Takže proto bychom to rádi systém doplnili nějakým úložištěm typu klasické diskové pole.

Minimálně ta část, která je vidět na Krameriu, je ale uložena na klasickém úložišti, ne?

PK: Ano, ta je na klasickém úložišti. Ale tato část je oddělena od samotné digitalizace. Z ní získává systém Kramerius jen některá data a pro zobrazení má vlastní úložiště.

ZK: V digitálním archivačním balíčku jsou obě kopie, jak ta k uložení, tak user kopie, která slouží k zobrazování. V průběhu procesu digitalizace (během průchodu digitalizačním workflow) se pak vyčlení ta, která je využita pro zpřístupnění. V aplikace pro zpřístupnění (Kramerius) je už jen user kopie a některá metadata. Data, která jdou do dlouhodobého úložiště, mají širší strukturu (detaily o standardech zde).

Využití technologie OCR

Digitalizační linka je umístěna v tzv. nové budově Centrálního depozitáře NK ČR v Praze-Hostivaři. Je zde umístěna i centrální část systému NDK.

Autor: Jan Vaca

Digitalizační linka je umístěna v tzv. nové budově Centrálního depozitáře NK ČR v Praze-Hostivaři. Je zde i centrální část systému NDK.

Co se všechno děje při digitalizaci dokumentu? Projíždí se to třeba vždy technologií OCR, nějak se to indexuje?

PK: Celý proces vlastně nezačíná až vlastní digitalizací. Začíná už na té přípravě dokumentů vybráním svazků z klasického fondu. Po tomto vytipování probíhá u všech dokumentů kontrola na duplicitu v rámci České republiky v systému Registr digitalizace, do kterého jsou zapojeny všechny knihovny a instituce, které digitalizují a jsou financovány z projektů hrazených ministerstvem kultury a ministerstvem školství či dalších veřejných zdrojů.

TF: Do procesu digitalizace vstupují i další instituce, které mají digitalizaci hrazenou z jiných zdrojů, například ze zahraničí či z vlastních nákladů. Vnímají to jako přidanou hodnotu, protože díky tomuto registru nevznikají uměle duplikáty. Systém Registr digitalizace je unikátní v celoevropském měřítku. Když mluvíte s kolegy z jiných zemí, tak obdobný systém většinou k dispozici nemají. V tomto ohledu jsme jednoznačně na evropské špičce.

PK: Po kontrole duplicity se dokument, který prověrkou projde, zakládá do našeho softwarového prostředí tak, aby byl identifikován. Z knihovního katalogu se následně natáhnout informace, které o něm máme. Jde o knihovnická metadata, která se nemusejí znovu pořizovat. Potom dochází k vlastnímu skenování a následně k běžné úpravě skenů typu natočení nebo ořez obrazu. Existuje mimochodem několik metod, jak dokument skenovat a ořezávat, zda zanechávat vnější okraje stránky, nebo dokument ořezávat tak, aby tam nebyl černý rámeček. Národní digitální knihovna ořezává na vnitřní okraj stránky. Přitom se zároveň kontroluje úplnost toho skenování, zda jsou obrazy dostatečně kvalitní, zda nejsou rozmazané.

Na pracovišti tvorby metadat se následně doplňují další data, která k titulu nejsou nebo nemohla být dosud pořízena automaticky, jako například technická data vzniklá během digitalizace, kdy se eviduje, s jakým rozlišením byl dokument pořízen, na jakém skeneru apod. Rovněž je potřeba doplnit hodnoty, které tam z titulu toho svazku nemohly být. Týká se to typicky svázaných periodik. Naskenujete celý svázaný ročník a je třeba odlišit, kde začíná a kde končí jednotlivá čísla, která strana je titulní, kde začíná příloha a tak dál. Což znamená už ruční práci pro kolegy z oddělení tvorby metadat. U monografií je to o tom, že se ta kniha skládá z nějaké obálky, předsádky a všechny tyto stránky se musí označit. Až když jsou veškerá tato data zkontrolována, tak je vytvořen základní balíček, který je připraven pro dlouhodobé uložení. V tuto chvíli končí digitalizační linka a data přecházejí na pracoviště Odboru digitálních fondů.

ZK: Já to jen doplním. Pro každý typ dokumentu, ať už se jedná o periodikum, nebo monografii, máme samostatný standard, jak digitalizace probíhá. Část z toho už říkal kolega, my tedy stahujeme záznam z katalogu, kde jsou klasické údaje o autorovi, potom zachováváme technická metadata, což jsou údaje o skenerech, ale zachováváme i údaje o tom, jaký software byl pro digitalizaci použit, v jaké verzi, zda docházelo k nějaké migraci a podobně. Sbíráme i administrativní metadata, to znamená veškeré informace o tom, co se všechno s dokumentem stalo, což je vynucené normami OAIS, aby byla zachována důvěryhodnost toho titulu. V oddělení metadat používáme soubor XML ve standardu METS, který obecně definuje strukturu balíčku. Takže zachováváme i údaje o tom, jak vypadá ta struktura, jak máme definované intelektuální entity, případně zdali je to jedna monografie, či vícesvazková monografie atd.

V případě periodik toto zpracování probíhá do úrovně jednotlivého čísla a všechny údaje potom musíme pospojovat do jednotlivých ročníků a titulů. Všechna metadata ještě doplňujeme o identifikátory UUID, které jsou využívány v rámci digitalizační linky. Plus používáme identifikátor URN:NBN, což je mezinárodní identifikátor pro digitální objekty. Tuto službu Národní knihovna ČR přímo provozuje prostřednictvím unikátního resolveru, tedy nástroje, jež tyto identifikátory přiděluje. My identifikátory URN:NBN přidělujeme nejen sobě, ale i institucím, které v rámci České republiky používají naše standardy. Máme tak detailní databázi toho, co už bylo v České republice v rámci novodobé digitalizace zpracováno.

TF: Ještě tu nezazněly některé drobnosti, které je ale třeba zdůraznit. Veškerá používaná identifikace je unikátní a perzistentní, což znamená, že se zachovává jedinečná digitální stopa do budoucna, což je důležité. V případě využívaných standardů je třeba také uvést, že jde o standardy plně respektující mezinárodní normy. Nejde tak o něco, co jsme si vymysleli v České republice. Používané standardy přímo navazují na pravidla vyhlašovaná například Kongresovou knihovnou, která je považována za nejvyšší autoritu v této oblasti. A třetí, drobný poznatek, poukazuje na skutečnost, že veřejnost proces digitalizace často vnímá pouze jako samotné skenování. Tato část ale tvoří z hlediska celého průběhu digitalizace nějakých 10–15 %. Až 75 % náročnosti leží právě v budování metadat, o čemž veřejnost většinou nemá ponětí.

PK: Jen doplnění k tomu, kdy Mgr. Kvašová zmiňovala, že se jde u monografií nebo periodik na úroveň čísla. Ono se jde ještě o úroveň dál, na úroveň jednotlivých stránek. Některé univerzitní knihovny jdou ale až na úroveň článku, u nás je ta nejmenší úroveň jedna stránka.

Zmínili jste, že některé knihovny jdou do úrovně článku. Jak je to u jednotlivých dokumentů? To znamená, že vzniká textový přepis kvůli vyhledávání?

PK: Ano, vzniká textový soubor z OCR.

ZK: Máme vlastně dva. Využíváme výstupní schema ALTOxml, které nabízí i možnost detekce pozice znaků na stránce. A potom využíváme klasický OCR .txt soubor, v němž jde o základní vyčtení jednotlivých znaků.

Některé zahraniční knihovny, například Rakouská národní knihovna, umožňuje vyhledávání i podle slov v digitalizovaných dokumentech. V systému Kramerius to ale asi nejde, ne?

ZK: Bohužel ne. My využíváme jen klasické OCR. ALTOxml sice vyrábíme, ale zatím ho v plné šíři nevyužíváme.

Ale je předpoklad, že se tato funkce postupně doplní?

TF: Ano, v plánu to je. Vývojový tým digitální knihovny Kramerius úzce spolupracuje s Ing. Alešem Brožkem, který v minulosti vedl krajskou knihovnu v Ústí nad Labem, hlavně se ale dlouhodobě zabývá vyhledáváním v digitálních knihovnách. Pomáhá nám nastavovat parametry, jak by vyhledávání mělo optimálně vypadat a fungovat.

Nicméně z hlediska vyhledatelnosti si je nutné uvědomit, že vždycky záleží na kvalitě skenu, kvalitě OCR a zároveň na tom, v jakém jazyku je dokument vytištěn. Co se týká novodobých dokumentů tištěných latinkou, tak tam je úroveň zpracování OCR velmi vysoká. Lze dosáhnout až 99 % úspěšnosti, že je znak rozpoznán správně. Pokud se ale vrátíme do starších vrstev, tak tam je spousta textů tištěna ať už českým, nebo německým švabachem a úspěšnost rozpoznávání znaků je na zhruba 30 %. Dokument je tak jen velmi složitě full-textově prohledatelný.

Dalším problémem je průběh samotného zónování. Z hlediska monografií je technologie OCR poměrně přesná, protože dokument se prochází vlastně pořád v jednom textovém bloku. U periodik ale do toho vstupují i obrazové přílohy, reklamy, různé typy fontů. Všechno tyto skutečnosti komplikují průběh OCR a mnohdy je třeba dokument projet OCR technologií několikrát, aby se doplnily jednotlivé typy písem nebo jazyků.

Problémy při digitalizaci

Co je tedy nejkomplikovanější při digitalizaci?

TF: To je u každého dokumentu jiné. Těžko hledat dokumenty, které by byly na 100 % identické. Vždy tam jsou nějaké rozdíly. Ale ty nejzásadnější problémy se týkají degradovaného papíru, který neumožňuje robotické skenování. Digitalizační pracoviště proto bylo konstruované tak, aby v něm byly zastoupeny různé typy skenerů. V digitalizačním pracovišti Národní knihovny ČR tak máme například ty, které mají vyvažovací plochou podložku a skenují se na nich dokumenty rozložené na 180 stupňů, dále disponujeme tzv. Vshape skenery, prostřednictvím nichž se dají digitalizovat dokumenty, které lze rozevírat jen částečně. K dispozici je i několik typů manuálních skenerů, máme rozdílné velikosti skenerů apod. Obecně je největším problémem degradovaný papír, který se musí digitalizovat velice jemně a digitalizace je hodně pomalá. V praxi se tak otáčí stránka za stránkou ručně, aby se papír nerozpadl.

Zmiňovali jste, že ten projekt vznikl před několika roky. Změnila se za tu dobu nějak výrazně i technologie skenování? Třeba z pohledu kvality výsledného výsledku?

PK: Je tam určitě posun. Otázka je, nakolik je pro nás tento posun nutný. Samozřejmě existují kamery s vyšším rozlišením, než byly v roce 2011, kdy jsme skenery vybírali. Ale když to vezmeme pohledem, že nyní skenujeme na 300 DPI a s kvalitnějšími přístroji bychom mohli skenovat na 600 DPI, tak to zase znamená vyšší datové toky. Což je limitace, která nám brání přejít na vyšší rozlišení plošně. My skenery, které jsou schopné skenovat do nativního rozlišení 600 DPI, máme, ale využíváme je selektivně, podle toho, zda to povaha dokumentu vyžaduje. Třeba když jde o velmi jemný tisk, mapu nebo obrazový soubor.

Naše největší skenery ale zároveň mají natolik stavebnicovou konstrukci, že můžeme optické členy měnit. Optiku můžeme tedy obnovovat, přístroje jsou zároveň konstruovány tak, že nosná konstrukce určitě vydrží dalších padesát let. Vyvíjí se samozřejmě také software, třeba u formátu TIFF jsme u verze 6 a začínali jsme u verze 4.

Autor: Jan Vaca

Skener Treventus ScanRobot 2.0 MDS je určen na šetrné skenování s robotickým obracením stran a lineárním snímáním.

S tím souvisí přenositelnost do dalších let. Lze předpokládat, jak dlouho budou soubory čitelné v JPEG 2000? Bude se to muset nějak přeukládat?

PK: Dlouhodobé úložiště se musí vnímat ze dvou pohledů. Jedním je bitová ochrana, to znamená čitelnost média a neporušitelnost zápisu. A pak logická ochrana, která spočívá právě v tom, že vy nejen kontrolujete, že je ten balíček správně uložen, ale že je i logicky čitelný. Například formát DjVu, ve kterém se kdysi skenovalo, už přestal být podporován všemi webovými prohlížeči. Aby obsah balíčku zůstal čitelný, tak musí včas dojít ke konverzi mezi formáty na jiný formát. Formát DjVu se třeba konvertoval do JPEG 2000. Až budou indicie, že v komunitě přestává být celosvětové použitelný formát JPEG 2000, nebo třeba formát JPG používaný u systému Kramerius, tak se budeme muset zabývat tím, jak ta data překonvertujeme do jiného formátu. Ona tato činnost není sice moc vidět, ale tvoří podstatnou část práce týmu, která se o to dlouhodobé úložiště stará. Nejde jen oprašovat přístroje a hlídat, zda jde elektřina.

Jinými slovy se snažíte předejít situaci, kdy některé optické nosiče z 90. let už nelze otevřít?

PK: Národní knihovna má mimochodem ve svém zorném úhlu, že má ve svých fondech uložené i optické nosiče a musí se o ně postarat. To, co zmiňujete, samozřejmě může být problém. Třeba ty disky vůbec neotevřete. A pokud ano, tak třeba zjistíte, že dokument pochází z programu, který šel otevřít pouze na Windows 95. To je příklad logické ochrany, kdy musíte zajistit, aby data byla včas přenesená do čitelného formátu.

Existuje nějaký odhad, kdy přijde další vlna migrace?

ZK: Původně jsme počítali s tím, že k formátovým migracím bude docházet. Už v roce 2012 jsme ale zvolili formát JPEG 2000 a doteď si myslíme, že to byl dobrý krok. Je to formát, který využívá většina národních knihoven na světě. A zatím nejsou indicie, že by byl opouštěn. V mezinárodní komunitě jsou využívány dva přístupy. Migrace je jeden přístup. A druhým přístupem je emulace a v poslední době je v mezinárodním přístupu zřejmé, že se začíná přecházet víc k emulaci. Pokud ale někdy potřeba migrovat přijde, tak to bude složité i vzhledem k objemu dat a technické náročnosti zpracování.

TF: Do celé oblasti navíc vstupuje technologický vývoj, který jste sám zmínil. Přemýšlet o tom, co se stane za pět deset let, je téměř nemožné.

PK: Dřívější digitalizace před Národní digitální knihovnou ukládaly například do formátu DjVu a u nich probíhá v současné době nějaká konverze. Každá taková konverze způsobuje nějakou ztrátu, což je právě důvod, proč se některé subjekty přiklání spíše k emulaci. Prostě uložit data tak, jak jste je digitalizovali v maximální kvalitě tenkrát. Pro zobrazení pak emulujete tehdejší prostředí. V archivu zůstává původní plnohodnotný soubor.

TF: Trendy ve světě jsou různorodé. Někde se data snaží nějak znovu ukládat, v severských zemí například zachovávají k převedeným datům i původní nosiče a mechaniky, na kterých byla data uložena. Nikdy to ale nepokryje 100 % typů nosičů. V Norské národní knihovně mají obrovský sklad, takové datové silo, a vedle něj další datové silo s původními médii, disky, disketami různých formátů a podobně. Když jej procházíte, říkáte si, tohle jsem měl jako dítě, to jsem používal jako teenager. Je to taková zajímavá nostalgie.

Druhou část rozhovoru, která se týká dalších autorských práv u digitalizovaných dokumentů, plánů na změnu uživatelských účtů nebo chystaných legislativních změn, které se týkají knihoven, přineseme v pátek.

Seriál: Rozhovory

Přečtěte si všechny díly seriálu Rozhovory nebo sledujte jeho RSS

Zajímá vás toto téma? Chcete se o něm dozvědět víc?

Objednejte si upozornění na nově vydané články do vašeho mailu. Žádný článek vám tak neuteče.

Vstoupit do diskuse (5 názorů)

Jan Vaca

Autor je od ledna 2018 ředitelem médií vydavatelství Internet Info. Předtím 6 let vedl zpravodajskou sekci portálu iDNES.cz, ještě předtím byl několik let reportérem celostátní redakce MF DNES. Občas si rád něco napíše.

Témata:

Ja bych se toho zas tak moc nebal. Pasky jsou velice spolehlive, zivotnost muze byt klidne i 30 let. 270TB ve finale neni take zadna extra porce dat. Viz. https://www.ibm.com/downloads/cas/QARENLOV .. (160 zettabytes expected by 2024). Navic maji tri kopie, to uz by musela byt smula (nesikovnost) neco smazat rucne na vsech trech ;-).

TheRipper

Sdílet

Jaké dokumenty se skenují?

Do jakých formátů se dokumenty skenují?

Kam se digitalizované dokumenty ukládají?

Využití technologie OCR

Problémy při digitalizaci

Pavel Vopařil (Bonami): Chceme udělat vítr na trhu online nakupování nábytku

Filip Pýrek (Purple Technology): Serverless je ultimátní vendor lock-in, ale může být levný a škáluje

David Procházka (Donio): Máme 350 aktivních sbírek. Kolem Vánoc je darů víc

Zajímá vás toto téma? Chcete se o něm dozvědět víc?

Autor článku

Jan Vaca

Témata:

Slevy aneb Jak v tom pořád plaveme

Příležitostný prodej na vánočních trzích? Poradíme, jak na to

Je libo formule, dvě, tři? Bývalý šéf F1 Ecclestone prodává svoji historickou sbírku, v nabídce je…

Regulace youtuberů a influencerů? Zeptali jsme se na názor právníků

Jak řešit situaci, kdy se změní vlastník pronajatého bytu, ale nájemné je předplaceno na měsíce…

Zakladatelé Ovečkárny spouští projekt v oblasti dlouhověkosti. S doplňky stravy OlaOla chtějí…

Odborníci: Povinná regulace youtuberů a influencerů? Nekoncepční krok bez strategie

Finanční úřady začínají u drobnějších prohřešků řešit situaci výzvou k nápravě bez trestu

Do příštího roku miliarda uživatelů, plánuje OpenAI. Odvážné a dosažitelné, hodnotí ChatGPT

Národní knihovna: V úložišti máme 270 TB dat, digitalizováno je téměř 56 milionů stran

Sdílet

Jaké dokumenty se skenují?

Do jakých formátů se dokumenty skenují?

Kam se digitalizované dokumenty ukládají?

Využití technologie OCR

Problémy při digitalizaci

Pavel Vopařil (Bonami): Chceme udělat vítr na trhu online nakupování nábytku

Filip Pýrek (Purple Technology): Serverless je ultimátní vendor lock-in, ale může být levný a škáluje

David Procházka (Donio): Máme 350 aktivních sbírek. Kolem Vánoc je darů víc

Zajímá vás toto téma? Chcete se o něm dozvědět víc?

Autor článku

Jan Vaca

Témata:

Podcast

Mohlo by vás zajímat

Chcete někoho, kdo vám opravdu rozumí? Zkuste umělou inteligenci, vzkazují české startupy

Rýsuje se jednodušší zdanění kryptoměn, Finanční správa a policie jsou proti

„Nemáme na tom zájem“. Opozice znovu brzdí televizní poplatky

Pořád jenom trolí! Jak Mikýř vyděsil Novu, ale nakonec vydělaly obě strany

Z našich webů

Slevy aneb Jak v tom pořád plaveme

Příležitostný prodej na vánočních trzích? Poradíme, jak na to

Je libo formule, dvě, tři? Bývalý šéf F1 Ecclestone prodává svoji historickou sbírku, v nabídce je…

Regulace youtuberů a influencerů? Zeptali jsme se na názor právníků

Jak řešit situaci, kdy se změní vlastník pronajatého bytu, ale nájemné je předplaceno na měsíce…

Zakladatelé Ovečkárny spouští projekt v oblasti dlouhověkosti. S doplňky stravy OlaOla chtějí…

Odborníci: Povinná regulace youtuberů a influencerů? Nekoncepční krok bez strategie

Finanční úřady začínají u drobnějších prohřešků řešit situaci výzvou k nápravě bez trestu

Do příštího roku miliarda uživatelů, plánuje OpenAI. Odvážné a dosažitelné, hodnotí ChatGPT

Dále u nás najdete

Notebook Asus ExpertBook P5: Pracant s výborným displejem

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Mapy.cz oficiálně placené. Dáte za ně 249 Kč, verze zdarma bude mít tato omezení

„Nemáme na tom zájem“. Opozice brzdí TV poplatky

Císařovna Sissi milovala Vánoce a dávání dárků

Klienti VZP nemusí nosit plastovou kartu, mohou mít elektronickou

Vzrostou limity u dohod i zaměstnaneckých benefitů

Když malý usnul, otevírala notebook. Nyní má úspěšný byznys

Cukroví bez tuku je stejně chutné, jako jeho kaloričtější alternativy

Kyberbezpečnost bude nákladná. Proč NÚKIB tvrdí opak?

Kdy se OSVČ vyhne platbě sociálního pojištění?

U dohod o provedení práce se ruší změny, ještě než začaly platit

Zakázkový krejčí džíny podceňoval. Nyní je prodává za tisíce

Ordinace si nechávají zaplatit za druhý názor na léčbu

Zákon o kybernetické bezpečnosti o krok blíže schválení

Správa firemního IT vybavení poháněná AI

Povinná regulace influencerů? Nekoncepční krok bez strategie

Oznámení o osvobozených příjmech: shrnutí povinností

Plat první dámy? Mnoho povyku pro nic

V obchodech je máslo s obsahem tuku jen 61 %. Rarita, ale povolená