Справка:Вычитка — Викитека
Перейти к содержанию
Эта страница защищена от редактирования (частичная защита).
Материал из Викитеки — свободной библиотеки
Проект
OCR
Подготовка
Прежде, чем размещать и вычитывать текст в Викитеке, нужно ответить на три вопроса:
Подходит ли текст для Викитеки?
Здесь нельзя размещать оригинальные добавления, рекламу, справочные и некоторые другие материалы.
Подробнее см.
ВТ:ЧСВ#Что нельзя включать
Находится ли текст в общественном достоянии?
Подробнее см.
ВТ:ОД#Общие положения
Как распознавать текст?
Самый удобный для дальнейшей работы вариант —
распознать
скан книги в программе
ABBYY FineReader
(коммерческая), сохранить в формате DjVu или PDF с сохранением текстового слоя, и загрузить файл на
Викисклад
. Как альтернатива, можно использовать встроенный гаджет для распознавания сканов (
Настройки — Гаджеты
— Редактирование — Google OCR). Однако этот гаджет работает постранично и может быть не активен.
Загрузка файла на Викисклад
Подготовка файла к загрузке
Для удобства в дальнейшей работе переименовываем файл книги в современное название на русском языке. Имя файла можно давать примерно такое:
<название книги> (<автор>, <год издания>)
. Нужно, чтобы имя этого файла не совпало с другой книгой, например того же автора и с тем же названием, но другого года издания или с тем же названием, но другого автора. Должно получиться примерно так:
История XIX века. 8 том (Лависс, Рамбо, 1907).djvu
. Если это перевод, то так:
Название (Автор/Переводчик, Год)
. До загрузки проверьте порядок страниц в pdf (может сохраниться в обратном порядке), чтобы индекс составился правильно.
Загрузка
Страница загрузки файлов (английский вариант)
Чтобы загрузить файл на
Викисклад
Заходим на
страницу загрузки файлов
Нажимаем большую кнопку
«Выберите медиафайлы, чтобы поделиться»
, выбираем нашу книгу. Успешно загруженный файл помечен зелёной галочкой.
Проверяем, действительно ли это та книга, которую мы собирались загрузить. Если ошиблись, нажимаем на ссылку
«Удалить»
. Если всё правильно, нажимаем на кнопку
«Продолжить»
Права на публикацию
На следующем шаге вас спрашивают, кто автор этой работы — вы или кто-то другой. Здесь рассматривается наиболее часто встречающийся вариант:
«Этот файл не является моим собственным произведением»
В поле
«Источник»
указываем адрес интернет-сайта, с которого получена книга. (можно оформить шаблоном
commons:Template:Citation templates
) В поле
«Автор(ы)»
указываем через запятую авторов (и/или редактора) книги.
Ниже на этой же странице просят указать права на публикацию. Выбираем
«Иная причина, не указанная выше»
и в открывшемся поле указываем
шаблон-лицензию
{{PD-RusEmpire}}
(п. 1
ВТ:ОД#Общие положения
) или
{{PD-Russia}}
(п. 2—5
ВТ:ОД#Общие положения
). Кнопка
«Предпросмотр»
справа позволяет проверить, не ошиблись ли мы в написании лицензии. Если всё в порядке, жмём кнопку
«Далее»
Описание
Мы попали на страницу
«Описание»
Если вы следовали рекомендациям по именованию файла в разделе «Подготовке файла к загрузке», то вам не придётся менять поле
«Заголовок»
Поле
«Описание»
. Вводим краткое описание книги или иллюстрации.
Поле
«Дата создания»
. Нас просят указать дату написания произведения или первой публикации. Для указания года нужно нажать иконку с карандашом возле поля ввода.
Поле
«Категории»
. Категории — это механизм поиска на сайтах Фонда Викимедиа. Заключается он в объединении страниц по какому-либо признаку. Например, если мы зайдём в категорию
1908 books from Russia
на Викискладе, то мы увидим все книги, изданные в 1908 году. (Заметьте, что категории в Викитеке и на Викискладе — разные). Если вы испытываете трудности с указанием категории, обратитесь за помощью на наш
Форум
Очевидная категория — год создания (или издания). Например, для книги, изданной в 1905 году:
1905 books from Russia
В каком городе книга опубликована:
Books published in Moscow
Books published in Saint Petersburg‎
и т. д.
Категория
Scanned Russian texts
или ее подкатегория. Например, для книги по истории, отсканированной в PDF, это будет подкатегория
PDF files in Russian - History
При наличии — категория автора, например,
Books by Anton Chekhov
Всё сделано, нажимаем кнопку «
Далее
». Мы загрузили книгу на Викисклад. Теперь необходимо создать индекс
Создание индекса
Поля создаваемого индекса. Скриншот en.wikisource.org
Созданный индекс. Скриншот en.wikisource.org
См. также:
Справка:Индекс
Индекс — это страница, которая даёт возможность быстрого доступа к любой странице книги для её вычитки и оформления в соответствии с оригинальным сканом.
Чтобы создать индекс, нужно изменить адресную строку на такую:
. Если всё сделано правильно, вы увидите в левом верхнем углу «Ссылка на страницу индекса». Нажимаем на неё и попадаем на страницу индекса, которого ещё нет. Нажимаем вкладку «Создать» или ссылку внизу «Создать такую страницу» и начинаем создавать индекс.
Поля создаваемого индекса:
Тип — тип документа (книга, сборник, энциклопедия и т.д.)
Состояние. Здесь вычитка и проверка — это названия этапов двухпроходной вычитки. Вычитка — первый этап, проверка — второй. Если наша книга — файл с распознанным текстовым слоем, то ставим состояние «вычитать», в противном случае — «распознать».
Название книги.
Автор. Указывается полностью согласно странице автора в Викитеке, например,
Павел Адамович Плеве
Место издания — Город (можно указывать сокращённое название — М., СПб.(Пб., Пг., Л.), Н. Новгород, Ростов н/Д. Названия всех остальных городов пишутся полностью.)
Источник. Создаётся автоматически и даёт ссылку на файл на Викискладе.
Школа — не заполняем.
Ключ сортировки — не заполняем.
Изображение обложки. Достаточно указать номер страницы файла, на которой расположена обложка.
Список страниц. Создаётся командой

. Страницы обложки и титульный лист можно записать так:

(здесь первая страница файла — обложка, вторая — пустая, третья — титульный лист, а начиная с четвёртой, страницы нумеруются, начиная с 1). См. примеры:
Индекс:Очерки из истории конницы (Плеве, 1889).pdf
Индекс:Russkoe_slovo_1859_11.pdf
Содержание. Сюда желательно записать оглавление книги с номерами страниц для облегчения ориентирования. Удобно оформлять оглавление с помощью шаблона
{{
Dotted TOC
}}
. См. те же примеры индексов.
Header. Сюда добавляем строку


Footer. Сюда добавляем две строки. Первая строка:

. Вторая строка:

. Теперь на всех вычитываемых страницах абзацы будут отображаться с красной строки, а также будут отображаться примечания, если они есть.
После создания индекса можно переходить к вычитке.
Вычитка текста
Создание страницы индекса. Скриншот en.wikisource.org
Теперь, когда мы создали индекс, необходимо все его страницы вычитать, то есть найти и исправить ошибки.
Создав документ
Страница:Название.djvu/Номер страницы
или просто нажав на красную ссылку в индексе, можно перейти на соответствующую страницу djvu-файла.
Интерфейс страницы вычитки
Страница вычитки представляет собой несколько полей: справа скан, который можно сохранить как jpg-рисунок, слева — окно редактирования распознанного текста.
Изображение скана
Расположенное справа изображение можно увеличить кликом или колёсиком мышки. Изображение можно двигать удерживая на нём кнопку мышки.
Поля редактирования и колонтитулы
Окна для верхнего и нижнего колонтитулов с добавленными шаблонами (в верхнем —
{{rh}}
, в нижнем —
{{smallrefs}}
). Скриншот en.wikisource.org
Страницы вычитки имеет 3 поля редактирования. — Верхний и нижний колонтитул и поле основного текста. Текст из полей колонтитулов игнорируются при трансклюзии в основное пространство, всё написанное отображается только на данной странице. (Фактически, эти колонтитулы представляют собой скрытые теги

.)
В нижние колонтитулы обычно помещают шаблоны для вывода примечаний (
{{
примечания2
}}
{{
примечания ВТ
}}
). Колонтитулы, по желанию могут соответствовать колонтитулам, как они были изданы в книге — с нумерацией страниц, и т. п. Подобные добавления должны размещаться именно в этих полях, а не в поле основного текста. (Иначе, если разместить их в поле текста, то при включении текста в основное пространство, при склейке страниц, все колонтитулы окажутся посреди абзацев, что является грубой ошибкой.)
Для выравнивания текста колонтитулов рекомендуется использовать шаблон
{{
колонтитул
}}
В панели редактирования есть вкладка «Инструменты корректора», на которой первая кнопка позволяет открыть/скрыть поля верхнего и нижнего колонтитулов. На странице индекса есть предустановки для этих полей для всего издания, см.
Справка:Индекс#Стили и колонтитулы страниц
Распознавание текста
В Викитеке недавно была добавлена возможность распознавания текста. См. в панели редактирования, в правой части кнопку «Расшифровать текст»
. Также при желании можно использовать стороннюю программу распознавания (см.
Справка:Оцифровка
), и затем попросить ботоводов загрузить распознанный текст книги.
Нужно попытаться при переводе книги из изображения в текстовую форму
в точности
передать текст так, как он приведён в данном издании книги. Не нужно ничего менять, от себя не нужно ничего добавлять (кроме редакторских примечаний) и удалять из текста.
Викитека не претендует на полное сохранение оформления текстов (размер и гарнитура шрифта, точное положение на странице и т. п.). Достаточно разумного приближения к этому оформлению с обязательным сохранением самого текста в полном объёме (за исключением номеров страниц и типографских пометок).
Автоматическое извлечение текстового слоя
Форматы pdf и djvu могут содержать текстовый слой. В Викитеке реализовано и работает автоматическое извлечение текстового слоя для форматов djvu и pdf — он появится при первом редактировании страницы.
Инструменты для комфортной вычитки
См. также:
Справка:Инструменты
Программа распознавания, бывает, неверно распознаёт некоторые символы и ставит вместо правильных — похожие (такие, например, как ноль и буква О, латинская цифра I и кириллическая буква І и тому подобные). Чтобы разница между этими похожими символами была более заметна, можно установить и использовать при вычитке бесплатный шрифт OCRA. Скачать его можно по ссылке
ocr-0.2.zip
. В этом архиве много файлов, среди них нужно найти OCRA.ttf (либо OCRA.otf, если в вашей системе используются не TrueType, а OpenType шрифты) и установить. Необходимо также настроить браузер, чтобы он использовал этот шрифт в полях ввода. Для Firefox версии 39.0: Инструменты-Настройки-Содержимое-Шрифт по умолчанию (кнопка Дополнительно)-Кириллица-Моноширинный.
Если вы будете вычитывать дореформенный текст, вам понадобится вводить дореформенные буквы, которых нет в современном русском языке, а следовательно — на клавиатуре. Удобнее всего это делать с помощью
раскладки клавиатуры Ильи Бирмана
Вставлять различные часто встречающиеся последовательности символов (такие, например, как
и другие) удобно при помощи программы, например,
CLCL
ClipX
Clipdiary
и т. п.
При переводе из дореформенной орфографии в современную контролировать правильность расстановки запятых поможет сайт
Словарь-справочник по пунктуации на Академике
. (Однако, если вы не филолог, в некоторых текстах вам вряд ли удастся самостоятельно правильно расставить знаки препинания — лучше найти книгу в современной орфографии, выпущенную после 1956 года, и сверяться с ней.) Ещё полезные сайты:
Грамота.ру
(орфография и пунктуация),
Викисловарь
(орфография),
Запятание
Опечатки
Опечатки оформляются с помощью шаблонов
{{
опечатка
}}
{{
опечатка2
}}
Шаблон
{{
опечатка
}}
с параметром О1 — применяется для очевидных опечаток. Рекомендуется пользоваться этим шаблоном только в случае, когда текст из книги невозможно ввести, например, когда буква перевёрнута или сильно смещена по вертикали. Более широкое использование этого шаблона может привести к ошибкам, таким как в словах «милионъ» или «принцеса» (в том и другом случае не опечатка).
Опечатки, указанные в списке опечаток, оформляются так:
{{опечатка|<правильный текст>|О2}}
Опечатки, которые исправлены по другому изданию или по оригиналу, с которого сделан перевод, оформляются с помощью
{{опечатка|<правильный текст>|О3}}
В остальных случаях опечатку можно оформлять с помощью шаблона
{{
опечатка2
}}
в такой форме:
{{опечатка2|<неправильный текст>|<правильный текст>}}
Часто бывает, что сканы некачественные, знаки препинания и буквы плохо видны либо совсем пропадают. Оформляйте как опечатку, только если она
хорошо
различима.
Переносы слов на следующую страницу
Подробнее см.:
Справка:Вычитка/Соединение страниц#Переносы слов на следующую страницу и дефисы
Удобнее всего использовать шаблоны
{{
Перенос
}}
{{
Перенос2
}}
(на следующей странице). Если в слове есть дефис и перенос пришёлся как раз на него, то оформляется так:
{{Перенос|кое-|как|дефис=}}
{{Перенос2|кое-|как}}
Пример переноса
слова, которое не содержит дефиса.
Абзац в начале страницы
Подробнее см.:
Справка:Вычитка/Соединение страниц#Новый абзац в начале страницы
Неверное отображение абзаца в готовой книге в основном пространстве происходит, когда страница начинается с нового абзаца. В этом случае надо
в самом начале страницы
добавить отдельную строку, поставив на ней шаблон
{{
nop
}}
или тег

(кнопка
в панели редактирования). Также можно просто поставить две пустые строки, но они могут быть удалены викификатором или ботом.
Примечания
См. также:
Справка:Вычитка/Соединение страниц#Переносы слов на следующую страницу и дефисы
Создание примечаний в тексте в русской Викитеке. Видеоурок
Примечания оформляются с помощью
Текст примечания
(см. внизу страницы редактирования раздел Заголовки и сноски). Номера примечаний указывать не нужно, они будут проставлены автоматически.
В случае, если примечания начинаются на одной странице, а заканчиваются на другой, применяются примечания с именем:
На первой странице:
Текст примечания
На второй странице:
Продолжение примечания
Имя для примечания можно выбрать любое, лишь бы оно начиналось с буквы и не повторялось внутри книги (или главы, если текст разбит на главы). Пример:
страница начала примечания
страница окончания примечания
результат
Примечания внутри примечаний (многоуровневые примечания) оформляются с помощью шаблона
{{
ref+
}}
Разрядка
Разрядка
широко использовалась в дореформенных текстах. Для оформления разряженного текста пользуйтесь шаблонами
{{
razr
}}
{{
razr2
}}
(второй, если после слова — знак препинания). В современных текстах разрядку чаще всего заменяют выделением курсивом.
Иллюстрации
Лучше оформлять изображения с помощью шаблона
{{
inline float
}}
Пример
. Оформление способом, описанным в
справке Википедии
, выглядит чуть менее красиво.
Дореформенная орфография
Если книга была изначально напечатана в дореформенной орфографии, то вариант в дореформенной орфографии — основной: он идентичен подлиннику.
В дореформенных текстах применялись два вида ударения:
акут
гравис
. В современных текстах применяется только акут. Поэтому гравис (если ударение необходимо), следует заменять на акут. В дореформенных текстах ударением обозначается местоимение «что́» в именительном или винительном падеже для отличия от сходного с ним союза «что»: — Мнѣ все равно, что́ скрыто тамъ на днѣ. В современных текстах ударение в этом случае чаще всего не ставится.
Кавычками начинались все строки многострочной цитаты (эта традиция имеет древнюю историю). В современных текстах кавычками в таких случаях помечаются только начало и конец цитаты.
Перевод в современную орфографию
Для многих современных читателей чтение текста в дореформенной орфографии является некомфортным. Поэтому допускается сделать одновременно и вариант в современной орфографии (если чувствуете, что вы достаточно квалифицированны).
Рекомендуется пользоваться шаблоном
{{
ВАР
}}
. — На каждой странице можно записать текст и в старой, и в новой орфографии (см.
пример
), а потом при создании страницы в основном пространстве имён будет автоматически выбран подходящий вариант в зависимости от того, имеется ли суффикс ДО («дореформенная орфография») или нет. Внутри шаблона нельзя использовать знаки «=» и «|» — текст не будет отображаться, необходимо заменять эти знаки на шаблоны {{=}} и
{{
}}
соответственно.
«Черновую» работу по конвертации орфографии выполнит деятификатор — кнопка на панели с изображением
ѣ→е
(чтобы она была видна, её нужно включить в настройках (
Гаджеты — Редактирование — Деятификатор
).
Затем необходимо проверить переведённый текст и исправить то, что деятификатору сделать не под силу.
Окончания « -ею», « -ою» сохраняется (в том числе в таких словах, как «репетициею»).
Ёфицировать
современный вариант или нет — решать вам. В Викитеке можно размещать и тот, и другой вариант. Это касается только случая, когда вы переводите текст из дореформенной орфографии в современную сами. Современные тексты, имеющие источник, публикуются «как есть». Ёфикация выполняется с помощью шаблонов
{{
}}
{{
ё!
}}
. Это позволит сделать два варианта готового текста — один ёфицированный, другой нет.
В современных текстах разрядка используется редко (например, в примечании), её заменяют на другие способы выделения. Обычно редакторы в издательствах заменяют разрядку на курсив.
Рекомендуется прочитать
Правила издания исторических документов в СССР
(прежде всего, пункты 4.2.2 и 4.2.3) и следовать им.
Когда текст переводится в современную орфографию, то также переводится в современную и пунктуация. В дореформенных текстах последняя зачастую заметно отличается от современной.
Секции
Используются, когда нужно показать в готовой книге не всю страницу, а только её часть. У каждой секции на странице — своё имя. Простой способ именования — дать секции в качестве имени порядковый номер. Это не только ускоряет оформление вычитываемой страницы, но и упрощает в дальнейшем сборку готовой книги. Альтернативный способ — давать секции имя, соответствующее по смыслу (например,

для третьей главы). Вот как выглядит применение секций с использованием первого способа, если на странице заканчивается Глава III и начинается Глава IV:
Здесь конец третьей главы

А здесь начало четвёртой главы

или можно так (используя второй способ):
Здесь конец третьей главы

Здесь начало четвёртой главы

Шаблон
{{
ВАР
}}
должен находится внутри секции (конечно, если она нужна).
Пример
Статус вычитки страницы
Кнопки для изменения статуса страницы. Скриншот en.wikisource.org
Кнопки для изменения статуса страницы (с кнопкой выбора статуса «проверена», отображается у всех участников кроме создавшего страницу). Скриншот en.wikisource.org
Созданная страница индекса (со статусом «вычитана»). Скриншот en.wikisource.org
После редактирования страницы нужно установить для нее
статус вычитки
Устанавливаются четыре статуса вычитки:
Без текста
пустая страница
Не вычитана
Вычитана
Проверена
Проблемная
Последний уровень вычитки (
Проверена
) можно установить только для страниц, которые уже имеют статус
Вычитана
, причём установить его может только другой редактор. Таким образом, этот статус требует работы над текстом не менее двух участников.
Все страницы по степени вычитки упорядочены в
Категория:Статусы вычитки страниц
Включение вычитанного текста в основное пространство
См. также:
Справка:Включение
Для начала небольшое объяснение:
Имена тех страниц, на которых производится вычитка, начинаются со слова «Страница» и находятся в особом
пространстве имён
— пространстве «Страница».
Страницы, на которых должен быть расположен готовый к чтению текст, находятся в «основном пространстве имён» (или пространстве «Статья»).
Наша цель — собрать (дословный перевод с английского --
включить
) отдельные страницы, вычитанные в пространстве «Страница», и показать в основном пространстве (это может быть, например, глава в книге).
Именование статьи
Именование статей (страниц основного пространства) производится согласно
ВТ:НС
. В строке поиска (в правом верхнем углу — Искать в Викитеке) вводим название создаваемой статьи. Если статья с таким названием уже существует, она будет показана. Похоже, вся наша работа была выполнена зря: кто-то раньше уже создал такой текст. Нужно проверять это до начала работы. Если же статья не найдена, то нажимаем на красную ссылку после слов «Создать страницу».
Информация о тексте
В начале статьи с помощью шаблона
{{
Отексте
}}
помещается общая информация о включаемом тексте.
Способы заполнения шаблона
{{
Отексте
}}
см. в документации шаблона. В графе ИСТОЧНИК можно дать ссылку на индекс с помощью шаблона
{{
Источник
}}
|ИСТОЧНИК={{Источник|Имя файла с расширением}}
Включение текста из индекса в статью
Наименее трудозатратный способ:



Рассмотрим параметры команды

(подробнее см.
Справка:Включение#pages
):
from=<номер той страницы из индекса, начиная с которой нужно включить Страницы в готовый текст>
to=<номер последней страницы индекса, которую нужно включить в готовый текст>
fromsection=<имя нужной секции на странице "from">
(не используется, если на странице нет секций)
tosection=<имя нужной секции на странице "to">
(не используется, если на странице нет секций)
Пример:

(см.
Скряга Скрудж (Диккенс Мей 1898)/Третья строфа/ДО
В сложных случаях, когда необходимо собрать текст из разрозненных страниц, используется шаблон
{{
Страница
}}
(пример:
Джон Ячменное Зерно (Бёрнс; Михайлов)/ДО
).
Шаблон лицензии
Подробнее см.
Справка:Шаблоны#Авторские права
Категории
Подробнее см.
Справка:Категории
См. также
Справка:Руководство по размещению текстов
Справка:Шаблоны#Форматирование
w:Википедия:Написание нерусских слов
Документация гаджета
Wikimedia OCR
Источник —
Категория
Викитека:Справка
Справка
Вычитка
Добавить тему