При использовании материалов Деткорпуса в научных публикациях, мы рекомендуем использовать ссылку на актуальную версию датасета в Репозитории открытых данных по литературе и фольклору. Это необходимо для верификации и воспроизведения исследовательских результатов: каждое пополнение Деткорпуса меняет частотности словоупотребления, статистику по авторам, темы LDA и проч. В Репозитории публикуется стабильная версия данных …
read moreOther articles
ДетКорпус как открытые данные
Маслинский, Кирилл; Лекаревич, Евгения; Алейник, Любовь, 2021, Корпус русской прозы для детей и юношества, V2 // Репозиторий открытых данных по русской литературе и фольклору. DOI: 10.31860/openlit-2021.4-C001
ДЕТКОРПУС
Корпус русской прозы для детей и юношества XX—XXI вв. (ДетКорпус) — это аннотированный корпус произведений русской детской литературы. В настоящий момент …
read moreТематический поиск в корпусе
Тематическое моделирование (LDA)
В Деткорпусе реализован поиск по фрагментам произведений, содержащим определенную тему. Тематика определяется автоматически с помощью алгоритма тематического моделирования LDA. Тематическое моделирование — это метод машинного обучения, который позволяет сгруппировать слова, встречающиеся вместе в одних и тех же контекстах, в «топики» — условные лексические группы. Топики во многих случаях связаны …
read more