Воспитательная функция детской литературы отражается в языке произведений и реализуется, среди прочего, с помощью модальности долженствования. Так, прилагательное должный является третьим по частотности прилагательным во всем корпусе (встречается 38,788 раз), лишь незначительно уступая прилагательным хороший (45,614 раз) и маленький (41,609 раз). В этом посте мы покажем, как можно использовать тематическое моделирование и поиск коллокаций для обнаружения некоторых дидактических тенденций в текстах детской литературы.
Поиск коллокаций в тематических фрагментах
- Для того, чтобы найти все производные базовой формы слова должный в определенной теме, нужно обратиться к простому поиску, и ввести запрос в поисковое окно:
- Чтобы развернуть меню выбора текстов, нужно кликнуть на
Text types
, в левом нижнем углу страницы находятся топики, полученные в результате тематического моделирования. Чтобы начать поиск, достаточно выбрать нужный список тем и нажать на него (в нашем примереlda100
): - В рамках задачи ‒ сравнить частотные коллокации к слову должный в
разных темах ‒ используем фрагменты с метками:
38_война_немец_партизан
,61_работа_работать_завод
,60_школа_директор_товарищ
, процедура поиска повторяется поочередно для каждой темы. Вводим слово в поисковую строку и выбираем нужную тему: - В результате: отображаются все конкордансы со словом должный,
встречающиеся в выбранной теме. Инструмент
Collocations
позволяет взглянуть на слова, которые чаще всего употребляются совместно, иконка с тремя точками находится в левом верхнем углу экрана: - Коллокации
отражают совместную встречаемость слов в более и менее устойчивых
словосочетаниях. Для анализа модальных высказываний со значением
долженствования нужно искать коллокации, в которых глагол следует
за словом должный на расстоянии не более трех слов после него,
Collocations
позволяет настроить такой диапазон. Отрицательное значение означает позицию в предложении до искомого слова, положительное — после: - Получаем результаты поиска для темы
38_война_немец_партизан
. Повторяем процедуру поиска для оставшихся тем:61_работа_работать_завод
и60_школа_директор_товарищ
, так выглядит список коллокаций: Список автоматически отсортирован поlogDice
‒ эта мера совместной встречаемости отображается в относительном значении и используется для сравнения корпусов разной величины.Cooccurrences
показывает, сколько раз слово встретилось рядом с «должен» в фрагментах с заданной темой, аCandidates
‒ общее количество употреблений слова в корпусе. Чем вышеT-score
, тем больше уверенности, что перед нами закономерность, а не совпадение. ЗначениеMI Score
будет более высоким для тех слов, которые чаще встречаются рядом с «должен» и реже фигурируют в других контекстах. Сортировку списка можно изменить, щелкнув по нужному параметру.
Как видно из анализа коллокаций, содержание предписаний разнится в зависимости от тематики текста, и порой оно не совсем интуитивно. Например, персонажу военной прозы больше всего полагается перемещаться, частотными оказываются глаголы, обозначающие движение. А герою школьной повести должно соблюдать эмоциональный кодекс: для этой темы характерно сочетание прилагательного должный с глаголами воспитывать, гордиться, извиняться. Просмотреть конкондансы можно, нажав на иконку с тремя точками в соответствующей строке: