Search Results for: jak pomoc
S čím je potřeba pomoc?
V současné době mám z různých zdrojů k dispozici relativně dost skenovaných časopisů – MLADÝ HLASATEL 1938-41, VPŘED 1945-1951, PIONÝR 1955-1981, JUNÁK 1945-48, ABC 1957-1962, … Bohužel jsou všechny strany skenovány jednotlivě a uloženy zpravidla do formátu JPG. To neumožňuje pohodlné stahovaní a prohlížení celých čísel, které mají zpravidla několik desítek stran ani vyhledávání v časopisech podle textu.
Aktuálně tedy řeším problém jak tyto skeny převést do PDF a spojit jednotlivé strany daného čísla do jednoho souboru (což není velký problém) a hlavně jak udělat PDF soubor „čitelným“ aby v něm šlo vyhledávat podle textu. Odzkoušený postup v ADOBE ACROBAT 9 PRO verze 9.2.0 (otevřený PDF soubor – Dokument – Rozpoznávání textu OCR – Rozpoznat text s použitím OCR, pak soubor uložit) nefunguje u naskenovaných souborů spolehlivě. I v takových PDF souborech není vyhledávání příliš spolehlivé.
Hledám automatický způsob pro převod JPG do PDF ve které lze relativně spolehlivě vyhleávat dle textu!
A pokud se někomu podaří najít a odzkoušet dávkové zpracování JPG souborů do potřebého formátu PDF, budu moc rád pokud se o svoji zkušenost podělí – neskutečně tím urychlí práci na tomto projektu : -)
Všechny ostatní, kteří jsou ochotni se zapojit do pomoci při „digitalizaci“ starých časopisů, moc prosím, aby při skenování všech dalšíc časopisů dodrželi VŠECHNY tyto pravidla:
- skenuj časopisy do formátu PDF
- ořež pečlivě všechny strany tak + dodrž správnou orientaci všech stran + správné pořadí i úplnost stran !!! (návod jak ořezat přesahující okraje)
- ukládej v takovém formátu PDF, ve kterém lze rozpoznat text – OCR (důležité pro další badatelskou práci – vyhledávání dle textu, vytvoření rejstříku, …) !!!!! (návod jak vyrobit PDF s OCR)
- Ukládej 1 číslo do 1 souboru
- Maximální velikost jednoho souboru může být 50 MB – například 32 stránkový OHNÍČEK lze digitalizovat do PDF o velikosti cca 3 MB
- Pojmenování souboru musí odpovídat formátu NÁZEV_ročník_rok-vydání_číslo (např. OHNICEK_26.rocnik_(1975-76)_cislo_01.pdf) – bez háčků a čárek, namísto mezer podtržítko, …
- Společně s PDF souborem daného časopisu pošli i náhled titulní stránky (ve formátu JPG) pojmenované stejně (tedy např. OHNICEK_26.rocnik_(1975-76)_cislo_01. jpg) – v případě tohoto OHNÍČKU velikost 800 x 540 obrazových bodů, v případě ABC velikost 800 x 1140 obr. bodů…