| ClipArtMag Science Blog |

Free Cliparts

Создание ePub Сложной Научной Книги из MS Word

Перевод статьи - Creating an ePub of a Complex Scholarly Book from MS Word

Автор - Дональд Мастронарде

Источник оригинальной статьи:

http://calclassicalstudies.org/?p=370

Для предыдущих книг ePub был произведен от InDesign. Отдельная книга InDesign должна была быть готова из тех же самых файлов InDesign, используемых в книге для печатного формата с определенными модификациями подготовиться к преобразованию. Было бы возможно сделать эффективное преобразование из Word, который пройдет все тесты, необходимые для распределения?

Я начал с копии окончательного Word .docx, используемого для создания PDF-готового к печати. Я удалил ручные разрывы строк и ручные разрывы страниц путем глобальной замены. Я не должен был делать это глобально, так как это вызвало большую работу позже, когда я нашел места в ePub, где некоторые из них должны были быть сохранены. Должны быть удалены только разрывы, вставленные для лучшего окончательного макета. Я попытался заменить Times New Roman на Minion Pro, просто переопределив шрифт по умолчанию и стиль Normal этого документа, но это не сработало. Я изменил несколько стилей вручную для изменения шрифта, но было слишком много стилей, чтобы иметь дело, и изменения, похоже, не вызвали каскадный эффект, который я ожидал. Поэтому я просто сделал глобальный поиск и заменил. Потребовалось несколько попыток фактически уничтожить все Minion Pro или, по-видимому, сделать это.

Я узнал, что бесплатный программный калибр может преобразовать файл Word в ePub, и один из источников сказал, что это не работает с .docx, но работает с .rtf. Поэтому после упомянутых корректировок я сохранил .docx как .rtf, добавил последний файл в калибр и использовал команду преобразования. Ошибка преобразования с сообщением об ошибке, что калибр обнаружил неожиданные функции в RTF. Я отметил, что в последней версии калибровки, которую я загрузил, была настройка для преобразования из .docx. Когда я добавил .docx в калибр и преобразован, процесс завершился. Если версия .rtf сработала, у нее, вероятно, был бы намного более чистый html, чем результат .docx.

Можно было внести некоторые изменения в результат в калибровке: я восстановил некоторые разрывы строк, и я редактировал файл css, чтобы удалить ссылки на различные шрифты, которые не должны были быть в моем документе вообще (Calibri, Tahoma, Arial, Palatino Линотип). Я считаю, что они, должно быть, были скрыты в нескольких символах абзаца в Word, так как я раньше искал в Word, чтобы найти и заменить шрифты, такие как Калибри. Это, по-видимому, является еще одним признаком того, что глобальный поиск в Word 2016 не является полностью надежным или, возможно, имеет какое-то отношение к необычной беспорядочности (и избыточности тегов) XML, используемой Microsoft для .docx. Но я предпочитаю работать в архиве ePub в Oxygen XML Editor или BBEdit. Чтобы получить архив ePub за пределами калибра для работы (и, в конечном счете, загрузки), правильная команда для использования в калибровке - это «Сохранить на диск», как EPUB только в одном каталоге ».

Здесь были некоторые действия, необходимые для того, чтобы ePub выглядел правильно (я проверил с iBooks и Adobe Digital Editions) и прошел проверку и проверку эвакуации на сайте Lulu.

1. Файл toc.ncx, созданный калибром, имел только одну навигационную точку для Notes. Как и в предыдущих книгах, этот файл нужно было отредактировать, чтобы иметь соответствующие главы и, в данном случае, соответствующие навигационные точки. Можно отметить, что сноски - все в конце книги с преобразованием калибра, тогда как предыдущие ePubs, созданные в InDesign, имели примечания для каждой главы в конце каждой главы.

2. В разных местах я видел нежелательные изменения размера шрифта. Когда я исследовал html для этих местоположений, я нашел огромное количество ненужного кодирования в файле: промежутки были применены к растяжкам текста без каких-либо оснований, включая число типа <span id=”id_OLE_LINK21″> … </span>. Я предполагаю, что это нечто, вызванное Словом, а не калибра. Устранение всех пролетов, содержащих OLE, не навредило и удалило много, но не все аномалии размера шрифта. Другие были удалены, когда я изменил класс пролета так же, как и соседний фрагмент текста, который был в правильном размере. Я не мог обнаружить причин, по которым был применен другой стиль для двух частей текста, и почему настройки css для этих двух стилей не отличались друг от друга. В конце концов, я обратился к файлу css и удалил все операторы шрифта, которые указывали на увеличенный шрифт (1.2em или 2.223em). Я не знаю, в чем их происходило, но в конечном итоге шрифты в книге, отображаемые в iBooks или Adobe Digital Edition, были одинакового размера.

3. В приложении к главе 1 содержались очень обширные две таблицы столбцов. Так или иначе, в одной из таблиц “colspan=”2″” был добавлен как атрибут для нескольких ячеек, создавая ошибку XML, из-за которой остальная часть главы вообще не отображалась. Удаление всех атрибутов colspan = "2" в файле решило эту проблему.

4. В печатной книге логотип на титульном листе находится в формате .eps, а калибр - в .emf. Но это не будет отображаться в приложениях для чтения. Вместо этого нужно использовать версию jpeg, с изменениями в манифесте в content.opf и html самой страницы. Пластины были в формате .tiff в книге, и те, что были показаны в iBooks, но не в Adobe Digital Editions. Я заменил их версиями jpeg. Поскольку я использую суффикс .jpg, когда я сохраняю файл jpeg, я сначала опечатывал медиа-тип в манифесте как image/jpeg, а не требуемое image/jpeg. epubcheck поймал это, а также мой отказ удалить запись манифеста для версии логотипа .emf.

5. Я удалил уродливое изображение обложки, которое создал калибр, ожидая простой обложки, созданной при обработке ePub на Lulu.com.

6. Из-за моего чрезмерного снятия разрывов страниц в версии Word перед конверсией, семь пластинок с их заголовками не появлялись на отдельных страницах и находились в одном html-файле. Добавление горизонтального правила и немного больше пространства между ними было небольшим улучшением, но недостаточно хорошим. Поэтому я разделил один файл html на семь, по одному для каждой тарелки, и скорректировал манифест и позвоночник в content.opf, чтобы они появились в нужном месте. Там, где был один файл, названный преобразователем caliber как “index_split_019.html”, файл этого имени теперь содержит только Plate 1, а остальные тарелки были в файлах с именем “_019a”, хотя “_019e”. В элементе манифеста исходный файл имел атрибут “id=”id2456″”, а шесть новых файлов также добавляли к имени файла. В элементе позвоночника должно было быть добавлено шесть строк типа “<itemref idref=”id2456[a-e]”/>” чтобы следовать оригиналу <itemref idref=”id2456″/>.

7. Хотя epubcheck снова завершился без ошибок, проверка, которая имеет место при загрузке в Lulu, показала, что по-прежнему остается файл постороннего калибра, который необходимо удалить (META-INF/calibre_bookmarks.txt), поскольку он не был в манифесте и, конечно, не нужно. Также необходимо было добавить к элементу dc:date атрибут opf:event=”publication”. После этих изменений была проверена валидация Lulu и опубликована версия ePub.

Процесс, вероятно, занял примерно столько же времени, как и создание ePub с использованием InDesign, или, возможно, немного дольше, потому что это был первый раз, когда использовался калибр, и в первый раз исследовал, что пошло не так в файле css и в некоторых из назначенных тегов к пространству текста.

Добавление 19 января 2018 года

EPub не был принят для более широкого распространения до тех пор, пока определенные исправления не были сделаны по просьбе системы Lulu для внутренней проверки.

1. Сообщение от Лулу говорит, что средний исходный текст автора отсутствовал из метаданных, но присутствовал на титульном листе и маркетинговом изображении. Когда я проверил метаданные в файле, который я загрузил, средний начальный файл уже находился в метаданных. Я не понимал до второго предупреждения, что при обработке моего загруженного файла система, используемая Lulu, изменила файл метаданных (переупорядоченные элементы, а также измененное содержимое). Он создал другой элемент-создатель dc:creator, используя первое поле имени на первой странице последовательности настройки для публикации Lulu, где не было начального среднего. Здесь исправление необходимо, а не в ePub, который я загружал.

2. Загруженный ePub не имел названия в качестве первой строки первого файла содержимого, но некоторые пустые абзацы, а заголовок был в элементе <p>. Он должен быть <h1> вместо этого, без каких-либо других элементов.

3. Первый файл, указанный в файле toc.ncx, имел элемент <text>, установленный в Front Matter. Этот текст нужно было изменить на название книги.