Перейти к содержанию

Функции вычисления метрик

Type-Token Ratio (TTR)

ruts.diversity_stats.calc_ttr()

Вычисление метрики Type-Token Ratio (TTR).

Самый простой и самый критикуемый способ вычисления лексического разнообразия, не принимающий во внимание влияние эффекта длины текста.

Формула:

\[ \frac{\textrm{Количество лексем}}{\textrm{Количество слов}} \]

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Root Type-Token Ratio (RTTR)

ruts.diversity_stats.calc_rttr()

Вычисление метрики Root Type-Token Ratio (RTTR).

Модификация метрики TTR (1960, Giraud).

Формула:

\[ \frac{\textrm{Количество лексем}}{\sqrt{\textrm{(Количество слов)}}} \]

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Corrected Type-Token Ratio (CTTR)

ruts.diversity_stats.calc_cttr()

Вычисление метрики Corrected Type-Token Ratio (CTTR).

Модификация метрики TTR (1964, Carrol).

Формула:

\[ \frac{\textrm{Количество лексем}}{\sqrt{2\times\textrm{(Количество слов)}}} \]

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Herdan Type-Token Ratio (HTTR)

ruts.diversity_stats.calc_httr()

Вычисление метрики Herdan Type-Token Ratio (HTTR).

Модификация метрики TTR с использованием логарифмической функции (1960, Herdan).

Формула:

\[ \frac{\log_{10} {\textrm{(Количество лексем)}}}{\log_{10} {{\textrm{(Количество слов)}}}} \]

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Summer Type-Token Ratio (STTR)

ruts.diversity_stats.calc_sttr()

Вычисление метрики Summer Type-Token Ratio (STTR).

Модификация метрики TTR с использованием логарифмической функции (1966, Summer).

Формула:

\[ \frac{\log_{10} {\log_{10} {\textrm{(Количество лексем)}}}}{\log_{10} {\log_{10} {{\textrm{(Количество слов)}}}}} \]

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Mass Type-Token Ratio (MTTR)

ruts.diversity_stats.calc_mttr()

Вычисление метрики Mass Type-Token Ratio (MTTR).

Модификация метрики TTR с использованием логарифмической функции (1966, Mass). Наиболее стабильная метрика в отношении длины текста.

Формула:

\[ \frac{\log_{10} {\textrm{(Количество слов)}}-\log_{10} {\textrm{(Количество лексем)}}}{\log_{10} {{\textrm{(Количество слов)}}}^2} \]

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Dugast Type-Token Ratio (DTTR)

ruts.diversity_stats.calc_dttr()

Вычисление метрики Dugast Type-Token Ratio (DTTR).

Модификация метрики TTR с использованием логарифмической функции (1978, Dugast).

Формула:

\[ \frac{\log_{10} {{\textrm{(Количество слов)}}}^2}{\log_{10} {\textrm{(Количество слов)}}-\log_{10} {\textrm{(Количество лексем)}}} \]

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Moving Average Type-Token Ratio (MATTR)

ruts.diversity_stats.calc_mattr()

Вычисление метрики Moving Average Type-Token Ratio (MATTR).

Модификация метрики TTR с использованием скользящей средней (2010, Covington & McFall). Не зависит от длины текста.

Алгоритм:

  1. Проход по тексту окном фиксированного размера
  2. Вычисление метрики TTR для каждого окна
  3. Усреднение метрик

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов
window_len int - Размер окна

Mean Segmental Type-Token Ratio (MSTTR)

ruts.diversity_stats.calc_msttr()

Вычисление метрики Mean Segmental Type-Token Ratio (MSTTR).

Модификация метрики TTR с использованием сегментирования (1944, Johnson). Не зависит от длины текста.

Алгоритм:

  1. Разделение текста на сегменты фиксированного размера
  2. Вычисление метрики TTR для каждого сегмента
  3. Усреднение метрик

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов
segment_len int - Размер сегмента

Measure of Textual Lexical Diversity (MTLD)

ruts.diversity_stats.calc_mtld()

Вычисление метрики Measure of Textual Lexical Diversity (MTLD).

Модификация метрики MSTTR (2005, McCarthy). Не зависит от длины текста.

Алгоритм:

  1. Разделение текста на сегменты со значением TTR равным 0.72
  2. Деление количества слов на количество получившихся сегментов

Доработанная версия алгоритма предполагает два прохода по тексту - в прямом и обратном порядке, и дальнейшее усреднее значения метрики (2010, McCarthy & Jarvis).

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов
min_len int - Минимальный размер сегмента

Moving Average Measure of Textual Lexical Diversity (MAMTLD)

ruts.diversity_stats.calc_mamtld()

Вычисление метрики Moving Average Measure of Textual Lexical Diversity (MAMTLD).

Модификация метрики MTLD с использованием скользящей средней. Не зависит от длины текста.

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов
min_len int - Минимальный размер сегмента

Hypergeometric Distribution D (HD-D)

ruts.diversity_stats.calc_hdd()

Вычисление метрики Hypergeometric Distribution D (HD-D).

Наиболее достоверная реализация алгоритма VocD (2010, McCarthy & Jarvis).

Алгоритм:

  1. Случайный отбор из текста сегментов длиной от 32 до 50 слов
  2. Вычисление метрики TTR для каждого сегмента
  3. Усреднение метрик

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов
sample_size int - Длина сегмента

Индекс Симпсона

ruts.diversity_stats.calc_simpson_index()

Вычисление индекса Симпсона.

Индекс широко применяется в биологии для описания вероятности принадлежности любых двух особей, случайно отобранных из неопределенно большого сообщества, к разным видам. С определенными допущениями применим и для описания лексического разнообразия текста.

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов

Гапакс-индекс

ruts.diversity_stats.calc_hapax_index()

Вычисление Гапакс-индекса.

Определение

Гапакс (греч. ἅπαξ λεγόμενον — «только раз названное») — слово, встретившееся в некотором корпусе текстов только один раз. Так, можно сказать, что боливар («шляпа определённого фасона») — гапакс языка Пушкина (оно встречается только в знаменитом месте из «Евгения Онегина»). Термин «гапакс» популярен в исследованиях Библии, в которой обнаружено несколько сотен подобных слов.

Гапаксы того или иного автора нередко используют для атрибуции ему некоторого другого произведения, где встречаются такие слова.

Параметры:

Параметр Тип По умолчанию Описание
text list[str] - Список слов