Опубликован новый релиз Деткорпуса и синхронизированная с ним новая версия датасета (версия 2.0). Мы пополнили подкорпус художественной литературы, преимущественно текстами 1920-х гг. Упростили порядок вывода метаданных в интерфейсе — количество полей теперь сокращено, удалена дублирующаяся информация. Сборники повестей и рассказов были разобраны на отдельные произведения. Общий объем корпуса к настоящему …
read moreOther articles
Пополнение корпуса и публикация датасета
Важные новости — теперь Деткорпус доступен исследователям не только для онлайн-поиска, но и в качестве датасета, опубликованного в Репозитории открытых данных по литературе и фольклору. Формат и набор данных, включенных в датасет, подобран таким образом, чтобы на этом материале можно было воспроизвести большую часть статистических расчетов, сделанных на исходных текстах корпуса …
read moreЦитирование Деткорпуса
При использовании материалов Деткорпуса в научных публикациях, мы рекомендуем использовать ссылку на актуальную версию датасета в Репозитории открытых данных по литературе и фольклору. Это необходимо для верификации и воспроизведения исследовательских результатов: каждое пополнение Деткорпуса меняет частотности словоупотребления, статистику по авторам, темы LDA и проч. В Репозитории публикуется стабильная версия данных …
read moreДетство в Сокольниках и Деткорпус
Библиотекари Центральной детской библиотеки им. И.А. Крылова в Сокольниках провели литературно-краеведческое расследование с помощью ДетКорпуса и сделали подборку цитат об образе района Сокольники в детской и юношеской советской прозе с 1940-х до 1970-х гг.. Материал можно посмотреть здесь.
«Детство в Сокольниках» — это онлайн-музей воспоминаний, где библиотекари совместно с местными …
read moreТехническое обновление корпуса
В Деткорпусе были обнаружены недочеты в метаданных и «шум» в данных — мы проверили и внесли исправления более чем в 600 текстов, улучшив поисковую выдачу. Несколько изменился объем корпуса, к настоящему моменту для художественной литературы это 2037 проиндексированных названий произведений, для нон-фикшн — 60; продолжаем совершенствоваться.
read moreНа пути к балансировке корпуса: 1920-е и 1930-е
Мы подготовили небольшое обновление корпуса, призванное заполнить некоторые лакуны в выборке и улучшить балансировку корпуса. Подкорпус художественной прозы пополнен произведениями 1920-х и 1930-х годов из учтенных в указателе «Детская литература». Всего добавлено 145 произведений, исправлено несколько ошибок и неточностей. Объем корпуса к настоящему моменту — 2136 произведений.
read moreРазделение корпусов и русскоязычный интерфейс
Новый релиз Деткорпуса содержит существенные обновления сразу в нескольких направлениях. Изменилась структура: теперь познавательная (нон-фикшн) и художественная литература для детей представляют собой два разных корпуса, переключаться между коллекциями текстов можно со страницы выбора корпуса.
Интерфейс корпуса переведен на русский язык — пользователям стали доступны всплывающие подсказки, поясняющие работу корпусных инструментов, а …
read moreЭлементы дидактики и новые возможности Деткорпуса
Воспитательная функция детской литературы отражается в языке произведений и реализуется, среди прочего, с помощью модальности долженствования. Так, прилагательное должный является третьим по частотности прилагательным во всем корпусе (встречается 38,788 раз), лишь незначительно уступая прилагательным хороший (45,614 раз) и маленький (41,609 раз). В этом посте мы покажем, как …
read more