Мы подготовили небольшое обновление корпуса, призванное заполнить некоторые лакуны в выборке и улучшить балансировку корпуса. Подкорпус художественной прозы пополнен произведениями 1920-х и 1930-х годов из учтенных в указателе «Детская литература». Всего добавлено 145 произведений, исправлено несколько ошибок и неточностей. Объем корпуса к настоящему моменту — 2136 произведений.
read moreРазделение корпусов и русскоязычный интерфейс
Новый релиз Деткорпуса содержит существенные обновления сразу в нескольких направлениях. Изменилась структура: теперь познавательная (нон-фикшн) и художественная литература для детей представляют собой два разных корпуса, переключаться между коллекциями текстов можно со страницы выбора корпуса.
Интерфейс корпуса переведен на русский язык — пользователям стали доступны всплывающие подсказки, поясняющие работу корпусных инструментов, а …
read moreЭлементы дидактики и новые возможности Деткорпуса
Воспитательная функция детской литературы отражается в языке произведений и реализуется, среди прочего, с помощью модальности долженствования. Так, прилагательное должный является третьим по частотности прилагательным во всем корпусе (встречается 38,788 раз), лишь незначительно уступая прилагательным хороший (45,614 раз) и маленький (41,609 раз). В этом посте мы покажем, как …
read moreПополнение корпуса и обновление интерфейса
В Деткорпус добавлено более сотни произведений 1940х—2000х гг. В разделе нон-фикшн появился новый для Деткорпуса жанр — добавлены популярные тематические энциклопедии для детей: 44 текста 1990—2010х гг. (жанровая метка — encyclopedia). Новый подкорпус пригодится исследователям учебных текстов и просто любознательным пользователям корпуса, например, в нем теперь есть 12 упоминаний коронавируса …
read moreТематический поиск в корпусе
Тематическое моделирование (LDA)
В Деткорпусе реализован поиск по фрагментам произведений, содержащим определенную тему. Тематика определяется автоматически с помощью алгоритма тематического моделирования LDA. Тематическое моделирование — это метод машинного обучения, который позволяет сгруппировать слова, встречающиеся вместе в одних и тех же контекстах, в «топики» — условные лексические группы. Топики во многих случаях связаны …
read moreПополнение корпуса — советская проза
Обновление: корпус пополнился сотней прозаических текстов 1920х—1980х годов (общим объемом около 4.5 млн слов). Основное внимание уделено периоду 1970-х — 1980-х, пока еще недостаточно полно представленному в нашем корпусе. В связи с расширением жанрового разнообразия корпуса введены новые жанровые метки:
- animalistic (анималистическая проза),
- historical (историческая проза).
Как и прочие …
read moreПополнение корпуса — постсоветская проза
В корпус добавлено более 700 текстов русских прозаических произведений для детей, написанных в 1990-х — 2010-х. В подборку вошли как произведения формульных жанров (детективы, ужастики, любовные повести), так и реалистические произведения. Среди отобранных произведений отчетливо видна тенденция резкого падения интереса к реалистическому жанру письма в детской литературе в 1990-е и постепенное …
read moreОткрыт новый сайт ДетКорпуса
Онлайн-версия корпуса русской детской литературы (ДетКорпус) теперь доступна по новому адресу: http://detcorpus.ru. Доступ к поисковому интерфейсу сохраняется и по старому адресу: http://maslinsky.spb..ru/detcorpus/.
read more