Перейти к содержимому
Форум химиков на XuMuK.ru
  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу

ChemProfi

Разделение двухстраничной книги формата djvu

Рекомендуемые сообщения

В 30.11.2018 в 08:57, ChemProfi сказал:

WinDjView это программа через которую можно скинуть в картинки?

 

WinDjView экспортирует страницы в картинки поштучно, а это долгое занятие. Я пользуюсь утилитой STDU Viewer, она одной командой сбрасывает из файла djvu в картинки (форматы bmp, gif, jpeg, png по выбору) хоть все страницы разом, хоть выборочно в любой заранее заданной последовательности, причём, можно задавать пиксельное разрешение получаемых картинок, чего нет при экспорте страниц в WinDjView. Чем мне особенно нравится эта утилита - у неё есть подключаемый модуль, с помощью которого файлы формата djvu можно напрямую конвертировать в формат pdf, без всякой промежуточной перегонки страниц в графику. Кроме файлов djv, djvu этот модуль конвертирует в формат pdf графические файлы форматов cbr, cbz, dcx, pcx, tif, tiff.

Поделиться сообщением


Ссылка на сообщение
2 часа назад, antabu сказал:

А Вы читали инструкцию к этой проге? Там все этапы надо пройти последовательно, кроме исправления ориентации.
 

Уже разобрался, только поля как-то плохо обрезаются - захватывается часть соседней страницы

Поделиться сообщением


Ссылка на сообщение

Лично я прохладно отношусь к наличию OCR-слоя в файлах формата djvu и обычно удаляю его программой Djvu Express Editor. OCR утяжеляет файл в среднем процентов на 15. Но дело не только и не столько в этом, если лет 10 назад это был бы весомый аргумент против OCR, то в наше время облачных хранилищ и терабайтных съёмных носителей проблема размера файлов утратила свою актуальность. Тут другое. Как известно, наличие OCR-слоя позволяет реализовать две функции: а) вести поиск по заданным ключевым словам и б) копировать текст с картинки в текстовом формате. Однако, часто невысокое качество исходных сканов не позволяет сделать качественное распознавание символов при введении OCR-слоя. В результате нет гарантии, что при поиске будут найдены все фрагменты с искомым словом или комбинацией слов, часть материала может оказаться не обнаруженной. Что касается возможности копирования текста, то я не вижу никакого смысла дополнительно нагружать файлы, ведь из многих имеющихся у меня книг я никогда ничего не буду копировать, а если в одной книге из 1000 и понадобится скопировать какой-то кусок текста, я всегда смогу сделать OCR на этих конкретных страницах тем же Express Editor. :cn: 

Поделиться сообщением


Ссылка на сообщение

Действительно, при низком разрешении качество распознания страдает. Но также  важно, чем и как распознавать. Кроме того, я стараюсь находить наиболее качественный источник, если есть выбор. Иногда первоисточник в .pdf. Последнее время чаще стал перераспознавать, если не устраивает качество имеющегося OCR.

У меня на Total Commander установлена система плагинов, позволяющая в один проход находить текст в файлах разных форматов в заданной папке. Форматы текстовые, .doc, docx, rtf, html, fb2, chm, распознанные pdf и djvu, причём без предварительной индексации. Иногда пользуюсь этой возможностью.



 

Изменено пользователем antabu

Поделиться сообщением


Ссылка на сообщение
7 часов назад, ChemProfi сказал:

Уже разобрался, только поля как-то плохо обрезаются - захватывается часть соседней страницы

Да, это трудоёмко, приходится пролистывать все страницы, иногда - не один раз, и исправлять вручную ошибки автоматического определения границ текста.
 

Поделиться сообщением


Ссылка на сообщение
10 минут назад, antabu сказал:

Да, это трудоёмко, приходится пролистывать все страницы, иногда - не один раз, и исправлять вручную ошибки автоматического определения границ текста.
 

Что нужно делать в разделе "поля" чтобы ничего не изменилось?

Поделиться сообщением


Ссылка на сообщение
2 часа назад, ChemProfi сказал:

И сразу появился другой вопрос: как djvu и pdf книги разверстать для печати?

Для PDF может помочь Adobe Acrobat, хотя Adobe InDesign тоже нормально с PDF работает. Пишут, что бесплатный Scribus  открывает PDF для редактирования.

Еще есть хорошая программа NitroPDFPro, преобразует PDF и бросает в Word.

DJVU, если есть текстовый, слой особых проблем нет, если нет, то придется распознавать с  FineReader, кстати он и PDF распознает.

Изменено пользователем aversun

Поделиться сообщением


Ссылка на сообщение

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйтесь для получения аккаунта. Это просто!

Зарегистрировать аккаунт

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас

×