Элементы дидактики и новые возможности Деткорпуса

Воспитательная функция детской литературы отражается в языке произведений и реализуется, среди прочего, с помощью модальности долженствования. Так, прилагательное должный является третьим по частотности прилагательным во всем корпусе (встречается 38,788 раз), лишь незначительно уступая прилагательным хороший (45,614 раз) и маленький (41,609 раз). В этом посте мы покажем, как можно использовать тематическое моделирование и поиск коллокаций для обнаружения некоторых дидактических тенденций в текстах детской литературы.

Поиск коллокаций в тематических фрагментах

  1. Для того, чтобы найти все производные базовой формы слова должный в определенной теме, нужно обратиться к простому поиску, и ввести запрос в поисковое окно: базовая поисковая
   форма
  2. Чтобы развернуть меню выбора текстов, нужно кликнуть на Text types, в левом нижнем углу страницы находятся топики, полученные в результате тематического моделирования. Чтобы начать поиск, достаточно выбрать нужный список тем и нажать на него (в нашем примере lda100): поля метаданных в
   поиске
  3. В рамках задачи ‒ сравнить частотные коллокации к слову должный в разных темах ‒ используем фрагменты с метками: 38_война_немец_партизан, 61_работа_работать_завод, 60_школа_директор_товарищ, процедура поиска повторяется поочередно для каждой темы. Вводим слово в поисковую строку и выбираем нужную тему: поиск темы по ключевому
   слову
  4. В результате: отображаются все конкордансы со словом должный, встречающиеся в выбранной теме. Инструмент Collocations позволяет взглянуть на слова, которые чаще всего употребляются совместно, иконка с тремя точками находится в левом верхнем углу экрана: коллокации
  5. Коллокации отражают совместную встречаемость слов в более и менее устойчивых словосочетаниях. Для анализа модальных высказываний со значением долженствования нужно искать коллокации, в которых глагол следует за словом должный на расстоянии не более трех слов после него, Collocations позволяет настроить такой диапазон. Отрицательное значение означает позицию в предложении до искомого слова, положительное — после: выбор позиции
   коллоката
  6. Получаем результаты поиска для темы 38_война_немец_партизан. Повторяем процедуру поиска для оставшихся тем: 61_работа_работать_завод и 60_школа_директор_товарищ, так выглядит список коллокаций: вывод
   коллокаций Список автоматически отсортирован по logDice ‒ эта мера совместной встречаемости отображается в относительном значении и используется для сравнения корпусов разной величины. Cooccurrences показывает, сколько раз слово встретилось рядом с «должен» в фрагментах с заданной темой, а Candidates ‒ общее количество употреблений слова в корпусе. Чем выше T-score, тем больше уверенности, что перед нами закономерность, а не совпадение. Значение MI Score будет более высоким для тех слов, которые чаще встречаются рядом с «должен» и реже фигурируют в других контекстах. Сортировку списка можно изменить, щелкнув по нужному параметру.

Как видно из анализа коллокаций, содержание предписаний разнится в зависимости от тематики текста, и порой оно не совсем интуитивно. Например, персонажу военной прозы больше всего полагается перемещаться, частотными оказываются глаголы, обозначающие движение. А герою школьной повести должно соблюдать эмоциональный кодекс: для этой темы характерно сочетание прилагательного должный с глаголами воспитывать, гордиться, извиняться. Просмотреть конкондансы можно, нажав на иконку с тремя точками в соответствующей строке:

кнопка вывода конкордансов из списка коллокаций

social