Other articles


  1. Цитирование Деткорпуса

    При использовании материалов Деткорпуса в научных публикациях, мы рекомендуем использовать ссылку на актуальную версию датасета в Репозитории открытых данных по литературе и фольклору. Это необходимо для верификации и воспроизведения исследовательских результатов: каждое пополнение Деткорпуса меняет частотности словоупотребления, статистику по авторам, темы LDA и проч. В Репозитории публикуется стабильная версия данных …

    read more
  2. ДетКорпус как открытые данные

    Маслинский, Кирилл; Лекаревич, Евгения; Алейник, Любовь, 2021, Корпус русской прозы для детей и юношества, V1 // Репозиторий открытых данных по русской литературе и фольклору. DOI: 10.31860/openlit-2021.4-C001

    ДЕТКОРПУС

    Корпус русской прозы для детей и юношества XX—XXI вв. (ДетКорпус) — это аннотированный корпус произведений русской детской литературы. В настоящий момент …

    read more
  3. Детство в Сокольниках и Деткорпус

    Детство в Сокольниках

    Библиотекари Центральной детской библиотеки им. И.А. Крылова в Сокольниках провели литературно-краеведческое расследование с помощью ДетКорпуса и сделали подборку цитат об образе района Сокольники в детской и юношеской советской прозе с 1940-х до 1970-х гг.. Материал можно посмотреть здесь.

    «Детство в Сокольниках» — это онлайн-музей воспоминаний, где библиотекари совместно с местными …

    read more
  4. Техническое обновление корпуса

    В Деткорпусе были обнаружены недочеты в метаданных и «шум» в данных — мы проверили и внесли исправления более чем в 600 текстов, улучшив поисковую выдачу. Несколько изменился объем корпуса, к настоящему моменту для художественной литературы это 2037 проиндексированных названий произведений, для нон-фикшн — 60; продолжаем совершенствоваться.

    read more
  5. На пути к балансировке корпуса: 1920-е и 1930-е

    Мы подготовили небольшое обновление корпуса, призванное заполнить некоторые лакуны в выборке и улучшить балансировку корпуса. Подкорпус художественной прозы пополнен произведениями 1920-х и 1930-х годов из учтенных в указателе «Детская литература». Всего добавлено 145 произведений, исправлено несколько ошибок и неточностей. Объем корпуса к настоящему моменту — 2136 произведений.

    read more
  6. Разделение корпусов и русскоязычный интерфейс

    Новый релиз Деткорпуса содержит существенные обновления сразу в нескольких направлениях. Изменилась структура: теперь познавательная (нон-фикшн) и художественная литература для детей представляют собой два разных корпуса, переключаться между коллекциями текстов можно со страницы выбора корпуса.

    Интерфейс корпуса переведен на русский язык — пользователям стали доступны всплывающие подсказки, поясняющие работу корпусных инструментов, а …

    read more
  7. Элементы дидактики и новые возможности Деткорпуса

    Воспитательная функция детской литературы отражается в языке произведений и реализуется, среди прочего, с помощью модальности долженствования. Так, прилагательное должный является третьим по частотности прилагательным во всем корпусе (встречается 38,788 раз), лишь незначительно уступая прилагательным хороший (45,614 раз) и маленький (41,609 раз). В этом посте мы покажем, как …

    read more
  8. Пополнение корпуса и обновление интерфейса

    В Деткорпус добавлено более сотни произведений 1940х—2000х гг. В разделе нон-фикшн появился новый для Деткорпуса жанр — добавлены популярные тематические энциклопедии для детей: 44 текста 1990—2010х гг. (жанровая метка — encyclopedia). Новый подкорпус пригодится исследователям учебных текстов и просто любознательным пользователям корпуса, например, в нем теперь есть 12 упоминаний коронавируса …

    read more
  9. Тематический поиск в корпусе

    Тематическое моделирование (LDA)

    В Деткорпусе реализован поиск по фрагментам произведений, содержащим определенную тему. Тематика определяется автоматически с помощью алгоритма тематического моделирования LDA. Тематическое моделирование — это метод машинного обучения, который позволяет сгруппировать слова, встречающиеся вместе в одних и тех же контекстах, в «топики» — условные лексические группы. Топики во многих случаях связаны …

    read more

Page 1 / 2 »

social