Digitální knihovna Arna Nováka
Ústřední knihovna Filozofické fakulty Masarykovy univerzity

Technické řešení

Soubory k dispozici

Hlavní obsah knihovny tvoří naskenované dokumenty poskytované v několika formátech:

Submenu Soubory
  • Application/pdf - naskenované stránky s podkladovou vrstvou OCR textu, ve kterých je možno do jisté míry vyhledávat. Prohlíží se např. pomocí Acrobat readeru.
  • Text/rtf - Automaticky rozpoznaný text bez korektur chyb s vloženými obrázky. Prohlíží se ve Wordu a podobných textových editorech.
  • Text/plain - Automaticky rozpoznaný prostý text bez korektur chyb. Kódování znakové sady je UNICODE UTF-8.
  • Záznam MARCXML - Katalogizační záznam pro knihovní systémy ve formátu MARC kódovaném pomocí XML.

Pro běžnou práci předpokládáme hlavní využívání souborů PDF. Ostatní texty obsahují podle kvality obrazové předlohy větší či menší počet chyb. Ty není v našich silách opravit. Knihovna je využívá pouze pro indexování a vyhledávání. Texty jsou k dispozici pro případ, že by je někdo chtěl dále zpracovávat, korigovat nebo jinak využít.

Převod na text nebyl proveden u čtyř vydání "Dějin literatury české" z důvodů velmi špatné kvality předloh a velkého rozsahu. OCR plánujeme pouze u posledního vydání.

On-line prohlížení dokumentu

Každý dokument je možné prohlížet přímo na webu. Pro získání přehledu jsou k dispozici náhledy stránek. Pokud stránka není chráněna autorským zákonem, po kliknutí se zobrazí zvětšený obrázek. V případě částečně chráněného obsahu, jako jsou ilustrace nebo jiné grafické prvky, byly tyto ponechány jen v náhledu. Ve zvětšené stránce byly vymazány a nahrazeny upozorněním. Obdobně jsme postupovali i v souborech PDF.

Na rozdíl od on-line JavaScriptových prohlížečů PDF dokumentů, používaných v některých digitálních knihovnách (s efektem otáčení stránek), jsme zvolili tento statický způsob zobrazení obsahu z následujících důvodů:

  • Každá stránka má samostatný stálý odkaz URL. Je možné ji tedy uložit do záložek v prohlížeči, do záložkovacích služeb typu linkuj.cz nebo odkaz komukoliv přeposlat e-mailem.
  • Protože je na konci každé stránky za obrázkem uveden i OCR text, je možné ve spojení se statickým URL docílit indexace stránky webovými vyhledávači. Tak bude časem (po zaindexování) dostupný obsah knihovny třeba přes Google nebo Seznam.

Seznam digitalizovaných děl je zatím členěn pouze podle roku vydání. Do budoucna počítáme s interaktivním seznamem s tříděním a filtrováním podle různých kritérií.

Odkazy

V navigační liště odkazů jsou k dispozici následující možnosti:

Submenu Odkazy
  • Obsah - U souborných monografií je na konci přehledové stránky elektronická verze obsahu s odkazy na první stránky příslušných kapitol.
  • Titulní stránka a stránka obsahu - Zobrazení těchto stránek, pokud existují.
  • Katalog Beth, Autor v Beth - Odkazy do Rozšířeného katalogu Beth, který vytváří Ústřední knihovna FF MU. Zde je možné přidávat doplňující bibliografické informace o díle a autorovi. Záznam existuje vždy, i když MU dokument nevlastní.
  • Katalog Aleph - Odkaz do Souborného katalogu MU, pokud dokument vlastní některá z fakultních knihoven MU.
  • Kniholink - Tato služba poskytuje další možnosti napojení na související bibliografické zdroje a také propojuje související vydání knih. V současnosti zde můžete zjistit především dostupnost exemplářů ve vybraných knihovnách ČR.

Digitalizace

Skenování proběhlo na knižním skeneru PlusTech OpticBook 4600. Parametry skenování byly: 300 DPI, B&W, TIFF fax G4. Pro zobrazení se generuje obrázek PNG v polovičním rozlišení a odstínech šedé.

Následné zpracování (vyrovnání, centrování, vyčištění) proběhlo ručně za pomoci vlastního programu. Pouze všechna čtyři vydání "Dějin literatury české" byla zpracována automaticky programem Scan Taylor z důvodu časové náročnosti.

Převod na text byl proveden programem Readiris Pro 10, Corporate Edition. Korektury textu neplánujeme.

Ochrana soukromí

Projekt vužívá pro analýzu chování uživatelů službu Google Analytics. Následující informace se týkají ochrany soukromí v souvislosti s touto službou a jsme povinni je sdělit našim uživatelům:

"Tyto stránky používají službu Google Analytics, poskytovanou společností Google, Inc. (dále jen "Google"). Služba Google Analytics používá souborů "cookies", které jsou textovými soubory ukládanými do vašeho počítače umožňující analýzu způsobu užívání těchto stránek jejich uživateli. Informace vygenerované souborem cookie o užívání stránek (včetně vaší IP adresy) bude společností Google přenesen a uložen na serverech ve Spojených státech. Google bude užívat těchto informací pro účely vyhodnocování užívání stránek a vytváření zpráv o jejich aktivitě, určených pro jejich provozovatele, a pro poskytování dalších služeb týkajících se činností na stránkách a užívání internetu vůbec. Google může také poskytnout tyto informace třetím osobám, bude-li to požadováno zákonem nebo budou-li takovéto třetí osoby zpracovávat tyto informace pro Google. Google nebude spojovat vaši IP adresu s jakýmikoli jinými daty, které má k dispozici. Můžete odmítnout používání souborů cookies volbou v příslušném nastavení ve vašem prohlížeči, avšak uvědomte si, že jestliže tak učiníte, tak nebudete schopni plně využívat veškeré funkce těchto stránek. Používáním těchto stránek souhlasíte se zpracováváním údajů o vás společností Google, a to způsobem a k účelu shora uvedeným."

Více viz v podmínkách služby.