Jak vytvořit správný PDF soubor pro archivaci na tomto webu?

Základní informace o kritériích, které musí splňovat PDF soubor s digitalizovaným číslem časopisu pro to, aby mohl být na tomto webu archivován jsou popsány v odkazu Jak se stát registrovaným uživatelem tohoto webu. Ale protože se na tento web obrací cca 10% zájemců o získání přístupu do archivu, kteří neumí takovýto PDF soubor vytvořit, pokusím se pro ně popsat jak postupuji já. Upozorňuji, že postup, který používám, není jediný správný a že existuje více způsobů – asi rychlejších, komfortnějších i spolehlivějších.

  • Časově nejnáročnější je samotné skenování časopisu. Pokud to váš program umožňuje, skenujte a ukládejte strany časopisu rovnou do formátu PDF.
  • Pokud máte časopis už naskenovaný (zpravidla ve formátu v JPG nebo TIF), zkontrolujte, zda je sken v rozlišení alespoň 300 dpi, zda jsou stránky správně ořezané i orientované.
  • Pojmenujte si stránky jednotlivého čísla tak, aby šly posloupně za sebou – aby byly správně seřazeny. Pak je převeďte do PDF. Já k tomu používám program Zoner Photo Studio 12 (zkušební a plně funkční verze lze stáhnout legálně ze stránek výrobce tohoto českého programu – http://www.zoner.cz/).
  • Nejdříve je ale vhodné skenované stránky upravit – ořezat. Lze ořezat i ve formátu PDF, ale to se mi zdá pracnější – zvláště, je-li potřeba každá stránka ořezat jinak.
  • Když budou všechny stránky správně ořezány, převedete je do souboru PDF. Pochopitelně musí být seřazeny posloupně, aby nebyly stránky na přeskáčku 🙂 V programu ZONER to jde jednoduše (já používám verzi 12 – u jiné verze to může být trochu jinak): vyberte všechny stránky jednoho čísla (pokud je máte v jednom adresáři, stačí jen Ctrl+A), pak zkrátka Ctrl+P, tlačítko „Další >”, ….. až po „Exportovat do PDF

navod_01

Další postup exportu z JPG do PDF ukazuji na příkladu jiného časopisu – MLADÉHO HLASATELE (to aby vás nemátly jiné obrázky):

1

2

3

4

5

6

  • Do políček v kroku „Parametry exportu do PDF“ vyplňte všechny 4 pole – důležité pro další práci s PDF časopisy (vyhledávání souborů, indexace, …)

navod_02

  • Soubor uložte se správným pojmenováním (!!!) – MLADY_TECHNIK_5.rocnik_(1951-52)_cislo_50 – bez háčků a čárek, s podtržítky místo mezer …. (nazev_rocnik_rok_cislo)

navod_03

navod_04

  • Spustím proces OCR – OK.  Spustí se proces, který trvá i několik minut – podle počtu stran. Tento proces je nezbytný proto aby se mohlo v souboru vyhledávat podle textu  (návod je i na http://www.detske-casopisy.cz/?s=jak+pomoc)

navod_05

  • Při procesu je vidět, která stránka se právě upravuje. Po ukončení akce se na obrazovce vrátí titulní strana.

navod_06

  • Po doběhnutí procesu nezapomeňte soubor ULOŽIT (Ctrl+S) nebo ikonka diskety.
  • Doporučuji provést kontrolu, že proces OCR proběhl v pořádku. Otevřu znovu soubor, do pole pro vyhledávání textu zadejte slovo o kterém bezpečně víte, že se v časopise vyskytuje – potvrďte – na obrazovce by se měla objevit stránka se zadaným slovem (v mém případě „technik“) a zvýrazněným slovem (v mém případě „technika“ – obsahuje slovo „technik“).

navod_07

  • A to je všechno, soubor je nyní vhodný k archivaci na www.detske-casopisy.cz – spolu s ostatními PDF soubory jej můžete poslat k přípravě archivu a nebo je (po přidělení oprávnění i k editaci webu) rovnou na web nahrát a připravit krátký článek s průvodním slovem, zajímavostmi, náhledem titulních stran a odkazy ke stažení.

 

Mějte na paměti, že pro archivování na tomto webu, musí výsledný soubor splňovat tyto kritéria:

  1. uložen ve formátu PDF
  2. pečlivě ořezané všechny strany tak uloženého čísla + dodržená správná orientace všech stran
  3. správně upravený formát PDF – ve kterém lze rozpoznat text  – OCR (důležité pro další badatelskou práci – vyhledávání dle textu, vytvoření rejstříku, …)
  4. uloženo 1 číslo do 1 souboru PDF
  5. maximální velikost jednoho souboru může být 30 MB
  6. při pojmenování souboru dodržený formát NÁZEV_ročník_rok-vydání_číslo (např. ABC_12.rocnik_(1967-68)_cislo 09.pdf) – bez háčků a čárek, namísto mezer podtržítko, …

 

 

16 Responses to Jak vytvořit správný PDF soubor pro archivaci na tomto webu?

  1. Miloš napsal:

    Nevím, kolik dělá chyb Adobe Acrobat Pro, tuším, že stojí cca kolem 10 tisíc! nabízím lepší řešení – AbbyyFineReader 12, umožňuje zonovat – neboli určit pořadí textových sloupců. Tento program stojí tuším cca 3000 Kč! a umožňuje skenování, rozpoznávání z obrázkových formátů, PDF a uložení do různých formátů od txt, docx, rtf, obrázkové PDF nebo PDF s textovou vrstvou pod obrazem stránky nebo nad ní … Další info a pomoc mohu na vyžádání sdělit.

  2. Josef napsal:

    Mám připravené 4. číslo ČINOVNÍKA 1946 k archivaci, – pošlu přes úschovnu na jakou adresu?
    Pepa Karhan

  3. Dazul napsal:

    editor@detske-casopisy.cz – pokud má soubor více než 5 MB, posílejte raději přes uschovna.cz

  4. Standa Galásek napsal:

    Tak nevím, kolik je asi ochotných lidí nějaký chybějící časopis poslat, ale jejich snaha ztroskotá na bezradnosti jak to udělat. Já jsem si již stáhl Zoner Photo Studio X, ale nejsem absolutně schopen naskenované stránky zpracovat dle požadavků. Podle návodu se mi ani nenaskytají možnosti v něm uvedené. Na PC sice pracuji, ale v tomto směru jsem prostě neschopný. Co s tím, vážení? Rád bych přispěl, rád bych u Vás zalistoval, ale nehnu se z místa.

    • Dazul napsal:

      Ten návod jsem skutečně připravoval pro použití v programu ZONER PHOTO STUDIO 12. Ale použít lze mnoho dalších programů (ukládání více stran do PDF umí i nejběžnější textový editor Microsoft Word – před chvílí jsem vyzkoušel na verzi MS Word 2010) – na začátku návodu píšu „Upozorňuji, že postup, který používám, není jediný správný a že existuje více způsobů – asi rychlejších, komfortnějších i spolehlivějších.“

  5. Josef napsal:

    Návod je připravený pro program „Zoner Photo Studio 12“ a ne „Zoner Photo Studio X“. Je pravděpodbné, že to ten novější program neumí. Budete muset stáhnout starší verzi.

  6. Moc velké PDF napsal:

    V jakém rozlišení máte jpeg obrázky jednotlivých stránek? Já je konvertuji např. na 700×1000 pixelů, a přesto při zachování 300 DPI pak výsledný PDF soubor 40stránkového časopisu má přes 50 MB. Při původním naskenovaném rozlišení mělo pdf 400MB. :-/ Jak to dokážete stáhnout na 30?

    • Dazul napsal:

      Udělal jsem pokus na 28 skenovaných stránkách 254×3637 s rozlišením 300 DPI (velikost 2,4 MB). Po převedení do PDF (dle návodu na tomto webu) má soubor 68,3 MB. Pal jsem aplikoval v Adobe Acrobat Pro (verze 10.1.16) OCR a soubor uložil. Soubor s OCR se mi uložil ve velikosti 9,9 MB.

  7. Skenovani, PDF napsal:

    Do PDF lze převést více způsoby. Základem bych viděl jako kvalitní zpracování do JPG neboli obrázku. Zoner je placený co použít nějaký jiný nástroj na pěkné zpracování obrázku?
    Může to být GIMP, Picasa apod které krásně vyhladí obrázky. Skenery to podporují už přímo, aby nebylo vidět pozadí, jako jsou vrstvy papíru.

    Do PDF lze použít programy, které jsou zcela zdarma.
    – libre office (kancelářský balík)
    – nejjednodušší je použít ve Windows 10 „Tisk do PDF“. Nabízí tam přímo tiskárnu do PDF. A přitom se to chová jako tiskárna
    – potom je dost online a jiných převodníků

    Jako návod může hodně lidem pomoct video návod, který se dá dát na youtube. K vytvoření takového návodu používám kvalitní a zdarma nástroj ActivePresenter

    Ke skenování dnes lze použít i telefon a například program CamScan na Android. Tento program vyrovná stránky hned při skenování a uloží do PDF. Dnešní fotáky v mobilu snadno vynahradí velké skennery.

    Také lze snadno udělat si vlastní úložistě na tomto nebo jiném webu, kde se dá udělat v PHP stránka na upload a poté jednoduše na seznam oho co tam je. Nemusíte využívat uschovna.cz . S tímto mohu snadno pomoct.

    • Dazul napsal:

      Ano máte pravdu, PDF lze „vyrobit“ více způsoby. Proto taky píšu v úvodu návodu „Upozorňuji, že postup, který používám, není jediný správný a že existuje více způsobů – asi rychlejších, komfortnějších i spolehlivějších.“
      Vaše nastíněné možnosti neřeší OCR u PDF – jeden z 10 bodů našich pravidel.
      PDF soubory se nám posílají přes uschovna.cz pouze proto, že přes většinu mailových klientů není možno posílat velké přílohy.
      Pokud budete schopen pomoci s „vlastním úložištěm“ (hostingujeme zatím na WEDOS) se PHP stránkou pro upload, rádi vyzkoušíme a bude-li fungovat (aby nepropouštěla soubory, které porušují některý z 10 bodů našich pravidel), obratem začleníme do naší práce !!!

  8. Problem s OCR v Acrobatu napsal:

    Zdravim vas.

    Pripravuji slibene specialni cislo Ohnicku s Barbankem podle vasich pozadavku. Ale nastal problem, se kterym si nevim rady.

    Vsechny stranky peclive naskenovane ve 400DPI, barva.
    Kazda stranka co mozna nejlepe vyrovnana.
    Vytvorim v Acrobatu PDF.

    A prichazi problem:
    pri rozpoznavani textu dochazi k tomu, ze kolikrat nesmyslne dochazi k natoceni objektu bitmapy, ne vsude, nekde az moc, pritom jsme stranky vyrovnaval hlavne kvuli textovym castem a vodorovnosti obsahu.. po ulozeni takoveho PDF mam k dispozici paskvil, na kterem sice dohledate text, ale vysledny vizual je na nic..

    Co s team? Nejaka rada? Pripadne jiny nastroj, ktery nemrvi vysledne PDF?

  9. Nabídka Mladý technik napsal:

    Dobrý den,
    mám k dispozici Mladého technika ročník 1953. Pokud byste měli zájem pokusil bych se ho oskenovat.
    S pozdravem
    M.Souček

    • Dazul napsal:

      Ze 7. ročníku MLADÉHO TECHNIKA máme digitalizováno pouze 1. číslo, o digitalizaci zbývajících čísel zájem máme.

  10. RODOKAPS 01.ročník (1935-36) číslo 002 – MATČIN VÝKŘIK napsal:

    Dobrý den.
    Chtěl až bych se podívat pro jiné knihovny.
    Včera se má různé Rodokaps (1935-1645).
    Připravoval na „RODOKAPS 01.ročník (1935-36) číslo 002 – MATČIN VÝKŘIK“. Mám různé PDF, DJVU, AZW3, MOBI, EPUB. Upravíme které ÚSCHOVNA.
    http://www.uschovna.cz/zasilka/NH3YW37H7UDMJE9A-E7Z

    Zdravím

    Milan Kunst
    Sládkovičova 1247/34
    142 00 Praha 4 – Krč
    Mobil: 603484190

Napsat komentář: Standa Galásek Zrušit odpověď na komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *