Other articles


  1. Пополнение корпуса и обновление интерфейса

    В Деткорпус добавлено более сотни произведений 1940х—2000х гг. В разделе нон-фикшн появился новый для Деткорпуса жанр — добавлены популярные тематические энциклопедии для детей: 44 текста 1990—2010х гг. (жанровая метка — encyclopedia). Новый подкорпус пригодится исследователям учебных текстов и просто любознательным пользователям корпуса, например, в нем теперь есть 12 упоминаний коронавируса …

    read more
  2. Тематический поиск в корпусе

    Тематическое моделирование (LDA)

    В Деткорпусе реализован поиск по фрагментам произведений, содержащим определенную тему. Тематика определяется автоматически с помощью алгоритма тематического моделирования LDA. Тематическое моделирование — это метод машинного обучения, который позволяет сгруппировать слова, встречающиеся вместе в одних и тех же контекстах, в «топики» — условные лексические группы. Топики во многих случаях связаны …

    read more
  3. Пополнение корпуса — советская проза

    Обновление: корпус пополнился сотней прозаических текстов 1920х—1980х годов (общим объемом около 4.5 млн слов). Основное внимание уделено периоду 1970-х — 1980-х, пока еще недостаточно полно представленному в нашем корпусе. В связи с расширением жанрового разнообразия корпуса введены новые жанровые метки:

    • animalistic (анималистическая проза),
    • historical (историческая проза).

    Как и прочие …

    read more
  4. Пополнение корпуса — постсоветская проза

    В корпус добавлено более 700 текстов русских прозаических произведений для детей, написанных в 1990-х — 2010-х. В подборку вошли как произведения формульных жанров (детективы, ужастики, любовные повести), так и реалистические произведения. Среди отобранных произведений отчетливо видна тенденция резкого падения интереса к реалистическому жанру письма в детской литературе в 1990-е и постепенное …

    read more

social