Пополнение корпуса и обновление интерфейса

В Деткорпус добавлено более сотни произведений 1940х—2000х гг. В разделе нон-фикшн появился новый для Деткорпуса жанр — добавлены популярные тематические энциклопедии для детей: 44 текста 1990—2010х гг. (жанровая метка — encyclopedia). Новый подкорпус пригодится исследователям учебных текстов и просто любознательным пользователям корпуса, например, в нем теперь есть 12 упоминаний коронавируса (2004 года).

Реализован новый инструмент для поиска — поиск по фрагментам произведений, содержащим определенную тему. Тематика определяется автоматически с помощью тематического моделирования (LDA). Например, теперь можно ограничить поиск темой № 187 «полковник_шпион_агент» и просмотреть все 214 упоминаний слова «карман» в шпионских контекстах. Поисковый интерфейс корпуса позволяет с помощью коллокаций просмотреть вероятное содержимое «шпионских карманов» и всех прочих карманов в корпусе, и разница налицо: в первых находим рацию, наган, пистолет и коробочку, а в последних — ключ, платок и бумажку. Подробнее об использовании тематического поиска — в инструкции.

И наконец, самое заметное обновление — корпус перешел на новую версию поискового интерфейса от NoSketchEngine, существенно более современную и открывающую некоторые новые возможности для поиска.

По традиции: исправлено множество неточностей, заменены некорректные файлы, удалены дубликаты. Объем корпуса к настоящему моменту — 1726 произведений (62 млн слов).

social