Разделение двухстраничной книги формата djvu

Аль де Баран · 4 Декабря, 2018 в 07:22

В 30.11.2018 в 08:57, ChemProfi сказал:

WinDjView это программа через которую можно скинуть в картинки?

WinDjView экспортирует страницы в картинки поштучно, а это долгое занятие. Я пользуюсь утилитой STDU Viewer, она одной командой сбрасывает из файла djvu в картинки (форматы bmp, gif, jpeg, png по выбору) хоть все страницы разом, хоть выборочно в любой заранее заданной последовательности, причём, можно задавать пиксельное разрешение получаемых картинок, чего нет при экспорте страниц в WinDjView. Чем мне особенно нравится эта утилита - у неё есть подключаемый модуль, с помощью которого файлы формата djvu можно напрямую конвертировать в формат pdf, без всякой промежуточной перегонки страниц в графику. Кроме файлов djv, djvu этот модуль конвертирует в формат pdf графические файлы форматов cbr, cbz, dcx, pcx, tif, tiff.

ChemProfi · 4 Декабря, 2018 в 07:46

2 часа назад, antabu сказал:

А Вы читали инструкцию к этой проге? Там все этапы надо пройти последовательно, кроме исправления ориентации.

Уже разобрался, только поля как-то плохо обрезаются - захватывается часть соседней страницы

Аль де Баран · 4 Декабря, 2018 в 10:25

Лично я прохладно отношусь к наличию OCR-слоя в файлах формата djvu и обычно удаляю его программой Djvu Express Editor. OCR утяжеляет файл в среднем процентов на 15. Но дело не только и не столько в этом, если лет 10 назад это был бы весомый аргумент против OCR, то в наше время облачных хранилищ и терабайтных съёмных носителей проблема размера файлов утратила свою актуальность. Тут другое. Как известно, наличие OCR-слоя позволяет реализовать две функции: а) вести поиск по заданным ключевым словам и б) копировать текст с картинки в текстовом формате. Однако, часто невысокое качество исходных сканов не позволяет сделать качественное распознавание символов при введении OCR-слоя. В результате нет гарантии, что при поиске будут найдены все фрагменты с искомым словом или комбинацией слов, часть материала может оказаться не обнаруженной. Что касается возможности копирования текста, то я не вижу никакого смысла дополнительно нагружать файлы, ведь из многих имеющихся у меня книг я никогда ничего не буду копировать, а если в одной книге из 1000 и понадобится скопировать какой-то кусок текста, я всегда смогу сделать OCR на этих конкретных страницах тем же Express Editor.

antabu · 4 Декабря, 2018 в 15:16

Действительно, при низком разрешении качество распознания страдает. Но также важно, чем и как распознавать. Кроме того, я стараюсь находить наиболее качественный источник, если есть выбор. Иногда первоисточник в .pdf. Последнее время чаще стал перераспознавать, если не устраивает качество имеющегося OCR.

У меня на Total Commander установлена система плагинов, позволяющая в один проход находить текст в файлах разных форматов в заданной папке. Форматы текстовые, .doc, docx, rtf, html, fb2, chm, распознанные pdf и djvu, причём без предварительной индексации. Иногда пользуюсь этой возможностью.

Изменено 4 Декабря, 2018 в 15:18 пользователем antabu

antabu · 4 Декабря, 2018 в 15:22

7 часов назад, ChemProfi сказал:

Уже разобрался, только поля как-то плохо обрезаются - захватывается часть соседней страницы

Да, это трудоёмко, приходится пролистывать все страницы, иногда - не один раз, и исправлять вручную ошибки автоматического определения границ текста.

ChemProfi · 4 Декабря, 2018 в 15:33

10 минут назад, antabu сказал:

Да, это трудоёмко, приходится пролистывать все страницы, иногда - не один раз, и исправлять вручную ошибки автоматического определения границ текста.

Что нужно делать в разделе "поля" чтобы ничего не изменилось?

ChemProfi · 4 Декабря, 2018 в 18:15

Все получилось

Думаю все книги которые обработаю выложить здесь в отдельную тему

ChemProfi · 4 Декабря, 2018 в 18:26

Большое спасибо всем за советы!

Изменено 4 Декабря, 2018 в 18:26 пользователем ChemProfi

ChemProfi · 4 Декабря, 2018 в 20:18

И сразу появился другой вопрос: как djvu и pdf книги разверстать для печати?

aversun · 4 Декабря, 2018 в 21:39

2 часа назад, ChemProfi сказал:

И сразу появился другой вопрос: как djvu и pdf книги разверстать для печати?

Для PDF может помочь Adobe Acrobat, хотя Adobe InDesign тоже нормально с PDF работает. Пишут, что бесплатный Scribus открывает PDF для редактирования.

Еще есть хорошая программа NitroPDFPro, преобразует PDF и бросает в Word.

DJVU, если есть текстовый, слой особых проблем нет, если нет, то придется распознавать с FineReader, кстати он и PDF распознает.

Изменено 4 Декабря, 2018 в 22:33 пользователем aversun

Войти

Разделение двухстраничной книги формата djvu

Рекомендуемые сообщения

Аль де Баран

Ссылка на комментарий

ChemProfi

Ссылка на комментарий

Аль де Баран

Ссылка на комментарий

antabu

Ссылка на комментарий

antabu

Ссылка на комментарий

ChemProfi

Ссылка на комментарий

ChemProfi

Ссылка на комментарий

ChemProfi

Ссылка на комментарий

ChemProfi

Ссылка на комментарий

aversun

Ссылка на комментарий

Для публикации сообщений создайте учётную запись или авторизуйтесь

Создать аккаунт

Войти

Последние посетители 0 пользователей онлайн

ХиМиК

Химия

Сервисы

Важная информация