Пополнение корпуса и публикация датасета

Важные новости — теперь Деткорпус доступен исследователям не только для онлайн-поиска, но и в качестве датасета, опубликованного в Репозитории открытых данных по литературе и фольклору. Формат и набор данных, включенных в датасет, подобран таким образом, чтобы на этом материале можно было воспроизвести большую часть статистических расчетов, сделанных на исходных текстах корпуса, а также проводить новые количественные исследования, опирающиеся на грамматическую и лексическую статистику. При цитировании результатов, полученных при поиске по корпусу, мы рекомендуем указывать ссылку на текущую версию датасета — это позволит в дальнейшем проверить и при необходимости воспроизвести количественные результаты исследования. Подробное описание состава датасета можно найти в файле README датасета.

Деткорпус не только опубликован в новом формате, но и содержательно обновлен — новый выпуск Деткорпуса включает в себя более ста произведений 1920-х годов. Тексты предоставлены Российской государственной детской библиотекой и подготовлены к публикации: вычитаны и сверены с оригиналами. Благодаря ценному сотрудничеству с РГДБ мы и дальше сможем пополнять Деткорпус произведениями начала XX века, расширяя ретроспективный охват нашей выборки. Уже сейчас в корпусе начинают появляться тексты 1900—1910 гг. Среди ранних текстов стоит отдельно отметить подкорпус нон-фикшн 1920-х, в который вошли преимущественно научно-популярные издания по естественным наукам, а также технике и технологиям. Наравне с конвенциональными научно-популярными текстами в подкорпус включены любопытные произведения, в которых художественная составляющая занимает значительную часть относительно научной. Интерфейс Деткорпуса позволяет ознакомиться с фрагментами этих произведений, а иллюстрированные цифровые копии доступны для читателей в НЭДБ.

Мы тепло благодарим РГДБ и лично Илью Гавришина, благодаря которому это обновление стало возможным. За помощь с подготовкой текстов к публикации мы признательны главному библиографу ЛОДБ Любови Алейник, а также студенткам филологической программы НИУ ВШЭ СПб Злате Климас, Екатерине Стариковой и Анне Логиновой.

social