Аль де Баран Опубликовано 4 Декабря, 2018 в 07:22 Поделиться Опубликовано 4 Декабря, 2018 в 07:22 В 30.11.2018 в 08:57, ChemProfi сказал: WinDjView это программа через которую можно скинуть в картинки? WinDjView экспортирует страницы в картинки поштучно, а это долгое занятие. Я пользуюсь утилитой STDU Viewer, она одной командой сбрасывает из файла djvu в картинки (форматы bmp, gif, jpeg, png по выбору) хоть все страницы разом, хоть выборочно в любой заранее заданной последовательности, причём, можно задавать пиксельное разрешение получаемых картинок, чего нет при экспорте страниц в WinDjView. Чем мне особенно нравится эта утилита - у неё есть подключаемый модуль, с помощью которого файлы формата djvu можно напрямую конвертировать в формат pdf, без всякой промежуточной перегонки страниц в графику. Кроме файлов djv, djvu этот модуль конвертирует в формат pdf графические файлы форматов cbr, cbz, dcx, pcx, tif, tiff. Ссылка на комментарий
ChemProfi Опубликовано 4 Декабря, 2018 в 07:46 Автор Поделиться Опубликовано 4 Декабря, 2018 в 07:46 2 часа назад, antabu сказал: А Вы читали инструкцию к этой проге? Там все этапы надо пройти последовательно, кроме исправления ориентации. Уже разобрался, только поля как-то плохо обрезаются - захватывается часть соседней страницы Ссылка на комментарий
Аль де Баран Опубликовано 4 Декабря, 2018 в 10:25 Поделиться Опубликовано 4 Декабря, 2018 в 10:25 Лично я прохладно отношусь к наличию OCR-слоя в файлах формата djvu и обычно удаляю его программой Djvu Express Editor. OCR утяжеляет файл в среднем процентов на 15. Но дело не только и не столько в этом, если лет 10 назад это был бы весомый аргумент против OCR, то в наше время облачных хранилищ и терабайтных съёмных носителей проблема размера файлов утратила свою актуальность. Тут другое. Как известно, наличие OCR-слоя позволяет реализовать две функции: а) вести поиск по заданным ключевым словам и б) копировать текст с картинки в текстовом формате. Однако, часто невысокое качество исходных сканов не позволяет сделать качественное распознавание символов при введении OCR-слоя. В результате нет гарантии, что при поиске будут найдены все фрагменты с искомым словом или комбинацией слов, часть материала может оказаться не обнаруженной. Что касается возможности копирования текста, то я не вижу никакого смысла дополнительно нагружать файлы, ведь из многих имеющихся у меня книг я никогда ничего не буду копировать, а если в одной книге из 1000 и понадобится скопировать какой-то кусок текста, я всегда смогу сделать OCR на этих конкретных страницах тем же Express Editor. Ссылка на комментарий
antabu Опубликовано 4 Декабря, 2018 в 15:16 Поделиться Опубликовано 4 Декабря, 2018 в 15:16 (изменено) Действительно, при низком разрешении качество распознания страдает. Но также важно, чем и как распознавать. Кроме того, я стараюсь находить наиболее качественный источник, если есть выбор. Иногда первоисточник в .pdf. Последнее время чаще стал перераспознавать, если не устраивает качество имеющегося OCR. У меня на Total Commander установлена система плагинов, позволяющая в один проход находить текст в файлах разных форматов в заданной папке. Форматы текстовые, .doc, docx, rtf, html, fb2, chm, распознанные pdf и djvu, причём без предварительной индексации. Иногда пользуюсь этой возможностью. Изменено 4 Декабря, 2018 в 15:18 пользователем antabu Ссылка на комментарий
antabu Опубликовано 4 Декабря, 2018 в 15:22 Поделиться Опубликовано 4 Декабря, 2018 в 15:22 7 часов назад, ChemProfi сказал: Уже разобрался, только поля как-то плохо обрезаются - захватывается часть соседней страницы Да, это трудоёмко, приходится пролистывать все страницы, иногда - не один раз, и исправлять вручную ошибки автоматического определения границ текста. Ссылка на комментарий
ChemProfi Опубликовано 4 Декабря, 2018 в 15:33 Автор Поделиться Опубликовано 4 Декабря, 2018 в 15:33 10 минут назад, antabu сказал: Да, это трудоёмко, приходится пролистывать все страницы, иногда - не один раз, и исправлять вручную ошибки автоматического определения границ текста. Что нужно делать в разделе "поля" чтобы ничего не изменилось? Ссылка на комментарий
ChemProfi Опубликовано 4 Декабря, 2018 в 18:15 Автор Поделиться Опубликовано 4 Декабря, 2018 в 18:15 Все получилось Думаю все книги которые обработаю выложить здесь в отдельную тему Ссылка на комментарий
ChemProfi Опубликовано 4 Декабря, 2018 в 18:26 Автор Поделиться Опубликовано 4 Декабря, 2018 в 18:26 (изменено) Большое спасибо всем за советы! Изменено 4 Декабря, 2018 в 18:26 пользователем ChemProfi Ссылка на комментарий
ChemProfi Опубликовано 4 Декабря, 2018 в 20:18 Автор Поделиться Опубликовано 4 Декабря, 2018 в 20:18 И сразу появился другой вопрос: как djvu и pdf книги разверстать для печати? Ссылка на комментарий
aversun Опубликовано 4 Декабря, 2018 в 21:39 Поделиться Опубликовано 4 Декабря, 2018 в 21:39 (изменено) 2 часа назад, ChemProfi сказал: И сразу появился другой вопрос: как djvu и pdf книги разверстать для печати? Для PDF может помочь Adobe Acrobat, хотя Adobe InDesign тоже нормально с PDF работает. Пишут, что бесплатный Scribus открывает PDF для редактирования. Еще есть хорошая программа NitroPDFPro, преобразует PDF и бросает в Word. DJVU, если есть текстовый, слой особых проблем нет, если нет, то придется распознавать с FineReader, кстати он и PDF распознает. Изменено 4 Декабря, 2018 в 22:33 пользователем aversun Ссылка на комментарий
Рекомендуемые сообщения
Для публикации сообщений создайте учётную запись или авторизуйтесь
Вы должны быть пользователем, чтобы оставить комментарий
Создать аккаунт
Зарегистрируйте новый аккаунт в нашем сообществе. Это очень просто!
Регистрация нового пользователяВойти
Уже есть аккаунт? Войти в систему.
Войти