Search Results for: jak pomoc

S čím je potřeba pomoc?

V současné době mám z různých zdrojů k dispozici relativně dost skenovaných časopisů – MLADÝ HLASATEL 1938-41,  VPŘED 1945-1951, PIONÝR 1955-1981, JUNÁK 1945-48, ABC 1957-1962, … Bohužel jsou všechny strany skenovány jednotlivě  a uloženy zpravidla do formátu JPG. To neumožňuje pohodlné stahovaní a prohlížení celých čísel, které mají zpravidla několik desítek stran ani vyhledávání v časopisech podle textu.

Aktuálně tedy řeším problém jak tyto skeny převést do PDF a spojit jednotlivé strany daného čísla do jednoho souboru (což není velký problém) a hlavně jak udělat PDF soubor „čitelným“ aby v něm šlo vyhledávat podle textu. Odzkoušený postup v ADOBE ACROBAT 9  PRO verze 9.2.0 (otevřený PDF soubor – Dokument – Rozpoznávání textu OCR – Rozpoznat text s použitím OCR, pak soubor uložit) nefunguje u naskenovaných souborů spolehlivě. I v takových PDF souborech není vyhledávání příliš spolehlivé.

Hledám automatický způsob pro převod JPG do PDF ve které lze relativně spolehlivě vyhleávat dle textu!

A pokud se někomu podaří najít a odzkoušet dávkové zpracování JPG souborů do potřebého formátu PDF, budu moc rád pokud se o svoji zkušenost podělí – neskutečně tím urychlí práci na tomto projektu : -)

Všechny ostatní, kteří jsou ochotni se zapojit do pomoci při „digitalizaci“ starých časopisů, moc prosím, aby při skenování všech dalšíc časopisů dodrželi VŠECHNY tyto pravidla:

  • skenuj časopisy do formátu PDF
  • ořež pečlivě všechny strany tak + dodrž správnou orientaci všech stran + správné pořadí i úplnost stran !!! (návod jak ořezat přesahující okraje)
  • ukládej v takovém formátu PDF, ve kterém lze rozpoznat text  – OCR (důležité pro další badatelskou práci – vyhledávání dle textu, vytvoření rejstříku, …) !!!!!  (návod jak vyrobit PDF s OCR)
  • Ukládej 1 číslo do 1 souboru
  • Maximální velikost jednoho souboru může být 50 MB – například 32 stránkový OHNÍČEK lze digitalizovat do PDF o velikosti cca 3 MB
  • Pojmenování souboru musí odpovídat formátu NÁZEV_ročník_rok-vydání_číslo (např. OHNICEK_26.rocnik_(1975-76)_cislo_01.pdf) – bez háčků a čárek, namísto mezer podtržítko, …
  • Společně s PDF souborem daného časopisu pošli i náhled titulní stránky (ve formátu JPG) pojmenované stejně (tedy např.  OHNICEK_26.rocnik_(1975-76)_cislo_01. jpg) – v případě tohoto OHNÍČKU velikost 800 x 540 obrazových bodů, v případě ABC velikost 800 x  1140 obr. bodů…