Воспитательная функция детской литературы отражается в языке произведений и реализуется, среди прочего, с помощью модальности долженствования. Так, прилагательное должный является третьим по частотности прилагательным во всем корпусе (встречается 38,788 раз), лишь незначительно уступая прилагательным хороший (45,614 раз) и маленький (41,609 раз). В этом посте мы покажем, как можно использовать тематическое моделирование и поиск коллокаций для обнаружения некоторых дидактических тенденций в текстах детской литературы.
Поиск коллокаций в тематических фрагментах
- Для того, чтобы найти все производные базовой формы слова должный
в определенной теме, нужно обратиться к простому поиску, и ввести
запрос в поисковое окно:

- Чтобы развернуть меню выбора текстов, нужно кликнуть на
Text types, в левом нижнем углу страницы находятся топики, полученные в результате тематического моделирования. Чтобы начать поиск, достаточно выбрать нужный список тем и нажать на него (в нашем примереlda100):
- В рамках задачи ‒ сравнить частотные коллокации к слову должный в
разных темах ‒ используем фрагменты с метками:
38_война_немец_партизан,61_работа_работать_завод,60_школа_директор_товарищ, процедура поиска повторяется поочередно для каждой темы. Вводим слово в поисковую строку и выбираем нужную тему:
- В результате: отображаются все конкордансы со словом должный,
встречающиеся в выбранной теме. Инструмент
Collocationsпозволяет взглянуть на слова, которые чаще всего употребляются совместно, иконка с тремя точками находится в левом верхнем углу экрана:
- Коллокации
отражают совместную встречаемость слов в более и менее устойчивых
словосочетаниях. Для анализа модальных высказываний со значением
долженствования нужно искать коллокации, в которых глагол следует
за словом должный на расстоянии не более трех слов после него,
Collocationsпозволяет настроить такой диапазон. Отрицательное значение означает позицию в предложении до искомого слова, положительное — после:
- Получаем результаты поиска для темы
38_война_немец_партизан. Повторяем процедуру поиска для оставшихся тем:61_работа_работать_заводи60_школа_директор_товарищ, так выглядит список коллокаций:
Список автоматически отсортирован по logDice‒ эта мера совместной встречаемости отображается в относительном значении и используется для сравнения корпусов разной величины.Cooccurrencesпоказывает, сколько раз слово встретилось рядом с «должен» в фрагментах с заданной темой, аCandidates‒ общее количество употреблений слова в корпусе. Чем вышеT-score, тем больше уверенности, что перед нами закономерность, а не совпадение. ЗначениеMI Scoreбудет более высоким для тех слов, которые чаще встречаются рядом с «должен» и реже фигурируют в других контекстах. Сортировку списка можно изменить, щелкнув по нужному параметру.
Как видно из анализа коллокаций, содержание предписаний разнится в зависимости от тематики текста, и порой оно не совсем интуитивно. Например, персонажу военной прозы больше всего полагается перемещаться, частотными оказываются глаголы, обозначающие движение. А герою школьной повести должно соблюдать эмоциональный кодекс: для этой темы характерно сочетание прилагательного должный с глаголами воспитывать, гордиться, извиняться. Просмотреть конкондансы можно, нажав на иконку с тремя точками в соответствующей строке:
