Функции вычисления метрик¶
Type-Token Ratio (TTR)¶
ruts.diversity_stats.calc_ttr()
Вычисление метрики Type-Token Ratio (TTR).
Самый простой и самый критикуемый способ вычисления лексического разнообразия, не принимающий во внимание влияние эффекта длины текста.
Формула:
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Root Type-Token Ratio (RTTR)¶
ruts.diversity_stats.calc_rttr()
Вычисление метрики Root Type-Token Ratio (RTTR).
Модификация метрики TTR (1960, Giraud).
Формула:
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Corrected Type-Token Ratio (CTTR)¶
ruts.diversity_stats.calc_cttr()
Вычисление метрики Corrected Type-Token Ratio (CTTR).
Модификация метрики TTR (1964, Carrol).
Формула:
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Herdan Type-Token Ratio (HTTR)¶
ruts.diversity_stats.calc_httr()
Вычисление метрики Herdan Type-Token Ratio (HTTR).
Модификация метрики TTR с использованием логарифмической функции (1960, Herdan).
Формула:
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Summer Type-Token Ratio (STTR)¶
ruts.diversity_stats.calc_sttr()
Вычисление метрики Summer Type-Token Ratio (STTR).
Модификация метрики TTR с использованием логарифмической функции (1966, Summer).
Формула:
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Mass Type-Token Ratio (MTTR)¶
ruts.diversity_stats.calc_mttr()
Вычисление метрики Mass Type-Token Ratio (MTTR).
Модификация метрики TTR с использованием логарифмической функции (1966, Mass). Наиболее стабильная метрика в отношении длины текста.
Формула:
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Dugast Type-Token Ratio (DTTR)¶
ruts.diversity_stats.calc_dttr()
Вычисление метрики Dugast Type-Token Ratio (DTTR).
Модификация метрики TTR с использованием логарифмической функции (1978, Dugast).
Формула:
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Moving Average Type-Token Ratio (MATTR)¶
ruts.diversity_stats.calc_mattr()
Вычисление метрики Moving Average Type-Token Ratio (MATTR).
Модификация метрики TTR с использованием скользящей средней (2010, Covington & McFall). Не зависит от длины текста.
Алгоритм:
- Проход по тексту окном фиксированного размера
- Вычисление метрики TTR для каждого окна
- Усреднение метрик
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
window_len |
int | - |
Размер окна |
Mean Segmental Type-Token Ratio (MSTTR)¶
ruts.diversity_stats.calc_msttr()
Вычисление метрики Mean Segmental Type-Token Ratio (MSTTR).
Модификация метрики TTR с использованием сегментирования (1944, Johnson). Не зависит от длины текста.
Алгоритм:
- Разделение текста на сегменты фиксированного размера
- Вычисление метрики TTR для каждого сегмента
- Усреднение метрик
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
segment_len |
int | - |
Размер сегмента |
Measure of Textual Lexical Diversity (MTLD)¶
ruts.diversity_stats.calc_mtld()
Вычисление метрики Measure of Textual Lexical Diversity (MTLD).
Модификация метрики MSTTR (2005, McCarthy). Не зависит от длины текста.
Алгоритм:
- Разделение текста на сегменты со значением TTR равным 0.72
- Деление количества слов на количество получившихся сегментов
Доработанная версия алгоритма предполагает два прохода по тексту - в прямом и обратном порядке, и дальнейшее усреднее значения метрики (2010, McCarthy & Jarvis).
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
min_len |
int | - |
Минимальный размер сегмента |
Moving Average Measure of Textual Lexical Diversity (MAMTLD)¶
ruts.diversity_stats.calc_mamtld()
Вычисление метрики Moving Average Measure of Textual Lexical Diversity (MAMTLD).
Модификация метрики MTLD с использованием скользящей средней. Не зависит от длины текста.
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
min_len |
int | - |
Минимальный размер сегмента |
Hypergeometric Distribution D (HD-D)¶
ruts.diversity_stats.calc_hdd()
Вычисление метрики Hypergeometric Distribution D (HD-D).
Наиболее достоверная реализация алгоритма VocD (2010, McCarthy & Jarvis).
Алгоритм:
- Случайный отбор из текста сегментов длиной от 32 до 50 слов
- Вычисление метрики TTR для каждого сегмента
- Усреднение метрик
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
sample_size |
int | - |
Длина сегмента |
Индекс Симпсона¶
ruts.diversity_stats.calc_simpson_index()
Вычисление индекса Симпсона.
Индекс широко применяется в биологии для описания вероятности принадлежности любых двух особей, случайно отобранных из неопределенно большого сообщества, к разным видам. С определенными допущениями применим и для описания лексического разнообразия текста.
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |
Гапакс-индекс¶
ruts.diversity_stats.calc_hapax_index()
Вычисление Гапакс-индекса.
Определение
Гапакс (греч. ἅπαξ λεγόμενον — «только раз названное») — слово, встретившееся в некотором корпусе текстов только один раз. Так, можно сказать, что боливар («шляпа определённого фасона») — гапакс языка Пушкина (оно встречается только в знаменитом месте из «Евгения Онегина»). Термин «гапакс» популярен в исследованиях Библии, в которой обнаружено несколько сотен подобных слов.
Гапаксы того или иного автора нередко используют для атрибуции ему некоторого другого произведения, где встречаются такие слова.
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
list[str] | - |
Список слов |