Other articles


  1. Обновление корпуса и датасета

    Опубликован новый релиз Деткорпуса и синхронизированная с ним новая версия датасета (версия 2.0). Мы пополнили подкорпус художественной литературы, преимущественно текстами 1920-х гг. Упростили порядок вывода метаданных в интерфейсе — количество полей теперь сокращено, удалена дублирующаяся информация. Сборники повестей и рассказов были разобраны на отдельные произведения. Общий объем корпуса к настоящему …

    read more
  2. Пополнение корпуса и публикация датасета

    Важные новости — теперь Деткорпус доступен исследователям не только для онлайн-поиска, но и в качестве датасета, опубликованного в Репозитории открытых данных по литературе и фольклору. Формат и набор данных, включенных в датасет, подобран таким образом, чтобы на этом материале можно было воспроизвести большую часть статистических расчетов, сделанных на исходных текстах корпуса …

    read more
  3. Цитирование Деткорпуса

    При использовании материалов Деткорпуса в научных публикациях, мы рекомендуем использовать ссылку на актуальную версию датасета в Репозитории открытых данных по литературе и фольклору. Это необходимо для верификации и воспроизведения исследовательских результатов: каждое пополнение Деткорпуса меняет частотности словоупотребления, статистику по авторам, темы LDA и проч. В Репозитории публикуется стабильная версия данных …

    read more
  4. Детство в Сокольниках и Деткорпус

    Детство в Сокольниках

    Библиотекари Центральной детской библиотеки им. И.А. Крылова в Сокольниках провели литературно-краеведческое расследование с помощью ДетКорпуса и сделали подборку цитат об образе района Сокольники в детской и юношеской советской прозе с 1940-х до 1970-х гг.. Материал можно посмотреть здесь.

    «Детство в Сокольниках» — это онлайн-музей воспоминаний, где библиотекари совместно с местными …

    read more
  5. Техническое обновление корпуса

    В Деткорпусе были обнаружены недочеты в метаданных и «шум» в данных — мы проверили и внесли исправления более чем в 600 текстов, улучшив поисковую выдачу. Несколько изменился объем корпуса, к настоящему моменту для художественной литературы это 2037 проиндексированных названий произведений, для нон-фикшн — 60; продолжаем совершенствоваться.

    read more
  6. На пути к балансировке корпуса: 1920-е и 1930-е

    Мы подготовили небольшое обновление корпуса, призванное заполнить некоторые лакуны в выборке и улучшить балансировку корпуса. Подкорпус художественной прозы пополнен произведениями 1920-х и 1930-х годов из учтенных в указателе «Детская литература». Всего добавлено 145 произведений, исправлено несколько ошибок и неточностей. Объем корпуса к настоящему моменту — 2136 произведений.

    read more
  7. Разделение корпусов и русскоязычный интерфейс

    Новый релиз Деткорпуса содержит существенные обновления сразу в нескольких направлениях. Изменилась структура: теперь познавательная (нон-фикшн) и художественная литература для детей представляют собой два разных корпуса, переключаться между коллекциями текстов можно со страницы выбора корпуса.

    Интерфейс корпуса переведен на русский язык — пользователям стали доступны всплывающие подсказки, поясняющие работу корпусных инструментов, а …

    read more
  8. Элементы дидактики и новые возможности Деткорпуса

    Воспитательная функция детской литературы отражается в языке произведений и реализуется, среди прочего, с помощью модальности долженствования. Так, прилагательное должный является третьим по частотности прилагательным во всем корпусе (встречается 38,788 раз), лишь незначительно уступая прилагательным хороший (45,614 раз) и маленький (41,609 раз). В этом посте мы покажем, как …

    read more

social