Перейти к содержанию
Форум химиков на XuMuK.ru

Обработанные книги


ChemProfi

Рекомендуемые сообщения

🚑 Решение задач, контроши, рефераты, курсовые и другое! Онлайн сервис помощи учащимся. Цены в 2-3 раза ниже!
17 часов назад, antabu сказал:

...текст не распознан, в неправильной кодировке или защищён от копирования - текстовые операции невозможны...

 

Защиту с pdf можно снять тут. Кроме того, защита pdf не мешает его конвертированию через Any2Djvu Server.

Ссылка на комментарий

Защиту я снимаю утилитой A-PDF Password Security. Говорят, бывает такая защита, которая не удаляется простыми средствами, но мне такие файлы не попадались.

Онлайновым конвертером давно не пользуюсь, но из того, что Вы пишете, можно понять, что текстовый слой не переносится из pdf в djvu.

Использую 2 конвертера: Djvu-Spec Pdf 2 DjVu Converter и pdf2djvugui. Второй часто не срабатывает, если не установлен ghostscript. Однако, при правильной работе конвертеры могут переносить не только текстовый слой, но и интерактивное оглавление.

Для конвертирования я обычно открываю pdf файнридером (у меня портабельная версия 8). В свойствах страниц смотрю цветовое и пиксельное разрешение, сохраняю страницы в формате tif. Если требуется обработка - прогоняю через скантейлор и снова в файнридер для распознания. Либо, иногда прогоняю через

IrfanView для приведения всех страниц к одному пиксельному размеру. Затем, собираю дежавю при помощи DjVu Small и вставляю текстовый слой DjvuOCR.

Могу переносить интерактивное оглавление между djvu файлами, но, чтобы перенести из пдф, приходится пользоваться вышеназванными конвертерами.

Это очень коротко, часто приходится цветные и серые страницы обрабатывать отдельно и вставлять, поворачивать некоторые страницы, менять порядок и вставлять пустые, чтобы нумерация в файле совпадала с нумерацией в книг и т.д.

  • Like 1
Ссылка на комментарий

Спасибо, скачал Djvu-Spec Pdf 2 DjVu Converter, попробую на досуге. Я занимаюсь всеми этими делами эпизодически, поэтому не держу руку на пульсе софта. Просто лет 6-7 назад определил для себя некий стандарт для книг электронной библиотеки и выбрал для работы с ними несколько программ - WinDjvu, Document Express Edltor, PDF-XChange, XnView, STDU, Microsoft Office, Any2Djvu Server. С тех пор с их помощью, не особо заморачиваясь, подгоняю выловленные в сети книги под свой стандарт, а он у меня простой - формат Djvu, никаких архитектурных излишеств типа OCR, аннотаций, внешних и внутренних ссылок, за исключением интерактивного оглавления. Остальное не критично - пиксели, одно- или двухстраничный формат и т. п., лишь бы качество страниц было нормальное и размер файлов не слишком большой. При необходимости дорабатываю либо отдельные страницы (чищу, поворачиваю, обрезаю, меняю размер, удаляю/добавляю), либо перегоняю целиком весь файл в картинки, потом довожу их до ума и конвертирую снова в djvu. Правда, сдаётся мне, что этой работе никогда не будет конца, реально под свой стандарт я пока что подогнал только шахматную библиотеку, с этой точки зрения она у меня образцовая, около 2000 наименований, в настоящее время потихоньку дорабатываю штук 6 шахматных книжек формата pdf. До химической библиотеки руки пока не дошли, для начала надо вообще определиться, что оставить, а что выкинуть, пока что это просто собрание книг более-менее рассортированных по разделам химической науки. Единственное, что я постоянно делаю - перед добавлением в библиотеку перегоняю все вновь найденные книги из других форматов в djvu, а также заменяю те или иные существующие файлы, если в сети подвернутся более удачные варианты. Насчёт сервера Any2Djvu - я как-то не обращал внимания на судьбу OCR-слоя (оно мне не нужно), однако надо думать, что исходный OCR удаляется, но может быть заменён новым, если включить опцию OCR при конвертировании. Что касается интерактивного оглавления исходного pdf-документа, то в большинстве случаев оно сохраняется, правда, иногда в искажённом виде, например, неправильно распознаются символы Ё, Ш, Ы. Но это мелочи, так как в 99% случаев я так и так переиначиваю содержание на свой вкус.

Ссылка на комментарий

У меня почему-то Document Express Edltor отказывается работать: пишет что-то вроде "внутренняя ошибка установки":au:

Скрытый текст

А теперь не открывает картинки:bx:

 

Изменено пользователем ChemProfi
Ссылка на комментарий
1 час назад, ChemProfi сказал:

У меня почему-то Document Express Edltor отказывается работать: пишет что-то вроде "внутренняя ошибка установки":au:

  Показать содержимое

А теперь не открывает картинки:bx:

 

 

Вообще не функционирует, и даже файлы djvu не принимает? Какая у вас версия программы? Если установка сделана корректно, то djvu могут не загружаться из-за слишком длинного имени файла, из-за слишком длинного пути к нему, из-за присутствия некоторых символов в имени файла, например %. Сократите имя файла, уберите из него сомнительные символы, перенесите поближе к корневому каталогу.После окончания обработки вы всегда сможете снова переименовать его и перенести куда угодно. Кстати, на чём вы работаете? Может быть, всё дело в этом? Соответствуют ли параметры вашего оборудования минимальным требованиям, заявленным на сайте, откуда вы скачивали программу? У меня ПК с не самым современным железом и всё ещё не сданной в утиль ОС ХР с третьим пакетом обновления, но пока не жалуюсь. Версия программы Document Express Editor 6.0.1, сборка 1320, копирайт (страшно признаться!) аж 2001-2005 год.

Изменено пользователем Аль де Баран
Ссылка на комментарий
29 минут назад, Аль де Баран сказал:

 

Вообще не функционирует, и даже файлы djvu не принимает? Какая у вас версия программы? Если установка сделана корректно, то djvu могут не загружаться из-за слишком длинного имени файла, из-за слишком длинного пути к нему, из-за присутствия некоторых символов в имени файла, например %. Сократите имя файла, уберите из него сомнительные символы, перенесите поближе к корневому каталогу.После окончания обработки вы всегда сможете снова переименовать его и перенести куда угодно. Кстати, на чём вы работаете? Может быть, всё дело в этом? Соответствуют ли параметры вашего оборудования минимальным требованиям, заявленным на сайте, откуда вы скачивали программу? У меня ПК с не самым современным железом и всё ещё не сданной в утиль ОС ХР с третьим пакетом обновления, но пока не жалуюсь. Версия программы Document Express Editor 6.0.1, сборка 1320, копирайт (страшно признаться!) аж 2001-2005 год.

Версия 4.1.0 2000-2003 г, пк довольно свеженький (лет от силы 5)

А как переименовать разом 600 с гаком картинок?:ai:

Из символов в имени только нижние подчеркивания _ _ такие вот

Изменение имени файлов не помогло, может поделитесь своей версией?:)

Изменено пользователем ChemProfi
Ссылка на комментарий

Что-то в последнее время во мне пробудились гены писателя, поэтому, дабы не занимать место на мониторе, я даю свой ответ в спойлере.

 

Скрытый текст

Версия 4 очень древняя, не используйте её. Хотя я у себя на компе держу на всякий случай версию 4.1.0.333 как раз для подобных случаев, так как изредка встречаются старые файлы djvu, которые не редактируются 6-й версией, с ней в списке файлов на левой панели вместо названий файлов-страниц показываются такие же чёрточки. В этом случае я запускаю четвёрку (честно говоря, не могу вспомнить, когда я её запускал в последний раз), в ней названия отображаются правильно, но функции её существенно ограничены по сравнению с шестой. Специальной установки 4-я версия не требует, но кроме исполняемого файла в папке должно быть штук 6 файлов динамических библиотек типа DLL, иначе программа работать не будет. Ещё, помнится, у меня с этой программой время от времени случались глюки типа того, что программа запускалась только при перетаскивании файла на её окошко, а командой из контекстного меню файла не запускалась, или запускалась только в случае, если папка с программой и редактируемый файл располагались на системном диске, а при их расположении на разных дисках не запускалась и т. п. Ещё я держу на диске 5-ю версию, иногда она тоже помогает, как в только что описанном случае, если четвёрка не запускается. Функций у 5-й версии побольше - практически как у 6-й, за исключением возможности создания и редактирования закладок (интерактивного оглавления), ну и версия кодирования у неё 21-я, а у шестёрки 25-я, хотя и визуально, и по размеру в байтах страницы в этих версиях практически идентичны. Кстати, недавно видел файл уже с 26-й версией кодирования, не знаю, какой программой он был сделан, может быть, более новыми версиями экспресса 6.5... 7.5, выпущенными под Android и Windows 7, а может быть какими-то другими. Для переименования сразу всех файлов в папке я пользуюсь файловым менеджером Total Commander, там на панели инструментов есть кнопочка с функцией "Групповое переименование", выделяете все файлы (или только те, которые нужно), жмёте на неё, вводите в графу "Найти" имя файла (или часть его), которое надо изменить, и новое имя в графу "Заменить на", затем жмёте "Выполнить", и все выделенные файлы переименуются. Если в графе "Заменить на" ничего не укажете, там будет надпись <Пусто>, то тогда из названия просто будет удалена та часть, которая указана в графе "Найти". Интересно, где вы откопали этого динозавра, я имею ввиду 4-ю версию, ведь через поиск легко гуглится несколько сайтов, с которых бесплатно и без регистрации можно скачать более актуальные версии. Откуда я скачал себе, я конечно уже не помню. Попытайтесь, а если не получится (что вряд ли), то я могу поделиться имеющейся у меня версией программы, установочный файл в виде zip-архива имеет вес 55 Мб, так что разместить его здесь я не смогу, но можно будет закинуть его на облако и дать ссылку в ЛС.

 

PS. Кстати, если мне не изменяет склероз, то я вроде припоминаю, по какой ещё причине не удаляю с диска 5-ю версию. Дело в том, что при перегонке картинок в файл djvu в программе имеется опция для задания разрешения страниц в пикселях. Так вот, в пятёрке эта функция работает нормально, а в шестёрке носит чисто декоративный характер, какое разрешение в ней не устанавливай, в итоге всё равно получится то, которое было у исходных картинок. Помнится, я тогда грешил на кривой установочный файл и пробовал делать переустановку программы с файлов, скачанных на разных сайтах, но ничего не изменилось, вероятно, это всё были клоны.

.

Изменено пользователем Аль де Баран
Ссылка на комментарий
5 часов назад, Аль де Баран сказал:

Что-то в последнее время во мне пробудились гены писателя, поэтому, дабы не занимать место на мониторе, я даю свой ответ в спойлере.

 

  Показать содержимое

Версия 4 очень древняя, не используйте её. Хотя я у себя на компе держу на всякий случай версию 4.1.0.333 как раз для подобных случаев, так как изредка встречаются старые файлы djvu, которые не редактируются 6-й версией, с ней в списке файлов на левой панели вместо названий файлов-страниц показываются такие же чёрточки. В этом случае я запускаю четвёрку (честно говоря, не могу вспомнить, когда я её запускал в последний раз), в ней названия отображаются правильно, но функции её существенно ограничены по сравнению с шестой. Специальной установки 4-я версия не требует, но кроме исполняемого файла в папке должно быть штук 6 файлов динамических библиотек типа DLL, иначе программа работать не будет. Ещё, помнится, у меня с этой программой время от времени случались глюки типа того, что программа запускалась только при перетаскивании файла на её окошко, а командой из контекстного меню файла не запускалась, или запускалась только в случае, если папка с программой и редактируемый файл располагались на системном диске, а при их расположении на разных дисках не запускалась и т. п. Ещё я держу на диске 5-ю версию, иногда она тоже помогает, как в только что описанном случае, если четвёрка не запускается. Функций у 5-й версии побольше - практически как у 6-й, за исключением возможности создания и редактирования закладок (интерактивного оглавления), ну и версия кодирования у неё 21-я, а у шестёрки 25-я, хотя и визуально, и по размеру в байтах страницы в этих версиях практически идентичны. Кстати, недавно видел файл уже с 26-й версией кодирования, не знаю, какой программой он был сделан, может быть, более новыми версиями экспресса 6.5... 7.5, выпущенными под Android и Windows 7, а может быть какими-то другими. Для переименования сразу всех файлов в папке я пользуюсь файловым менеджером Total Commander, там на панели инструментов есть кнопочка с функцией "Групповое переименование", выделяете все файлы (или только те, которые нужно), жмёте на неё, вводите в графу "Найти" имя файла (или часть его), которое надо изменить, и новое имя в графу "Заменить на", затем жмёте "Выполнить", и все выделенные файлы переименуются. Если в графе "Заменить на" ничего не укажете, там будет надпись <Пусто>, то тогда из названия просто будет удалена та часть, которая указана в графе "Найти". Интересно, где вы откопали этого динозавра, я имею ввиду 4-ю версию, ведь через поиск легко гуглится несколько сайтов, с которых бесплатно и без регистрации можно скачать более актуальные версии. Откуда я скачал себе, я конечно уже не помню. Попытайтесь, а если не получится (что вряд ли), то я могу поделиться имеющейся у меня версией программы, установочный файл в виде zip-архива имеет вес 55 Мб, так что разместить его здесь я не смогу, но можно будет закинуть его на облако и дать ссылку в ЛС.

 

PS. Кстати, если мне не изменяет склероз, то я вроде припоминаю, по какой ещё причине не удаляю с диска 5-ю версию. Дело в том, что при перегонке картинок в файл djvu в программе имеется опция для задания разрешения страниц в пикселях. Так вот, в пятёрке эта функция работает нормально, а в шестёрке носит чисто декоративный характер, какое разрешение в ней не устанавливай, в итоге всё равно получится то, которое было у исходных картинок. Помнится, я тогда грешил на кривой установочный файл и пробовал делать переустановку программы с файлов, скачанных на разных сайтах, но ничего не изменилось, вероятно, это всё были клоны.

.

Динозавр сработал хорошо, только на масштабе 100% слегка мутный текст, а так всё в порядке

Вечером перегоню второй том и выложу

Изменено пользователем ChemProfi
Ссылка на комментарий

У меня версия 6.1, (ничего не устанавливал, попался портабельный вариант весом 6,6 М) но использую её только для финишной доводки - повернуть или вставить страницы. А для сборки DjVu Small даёт меньший размер выходного файла, или я просто так привык.

А принципы в моей библиотеке тоже есть.  Например, не признаю pdf для сканов. Или, лет 10 назад не мог подобрать удобный виндовый вьювер для fb2. C тех пор конвертирую их в chm, причём, в единую виндовую кодировку. Тогдашняя версия коммандера искала текст в разных кодировках только в несколько проходов.
 

Ссылка на комментарий

Для публикации сообщений создайте учётную запись или авторизуйтесь

Вы должны быть пользователем, чтобы оставить комментарий

Создать аккаунт

Зарегистрируйте новый аккаунт в нашем сообществе. Это очень просто!

Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.

Войти
  • Последние посетители   0 пользователей онлайн

    • Ни одного зарегистрированного пользователя не просматривает данную страницу
×
×
  • Создать...