Russian Texts Statistics (ruTS)¶
Библиотека для извлечения статистик из текстов на русском языке.
Функционал¶
Основной функционал базируется на адаптированных для русского языка статистиках библиотеки textacy и позволяет работать как непосредственно с текстами, так и с подготовленными Doc-объектами библиотеки spaCy.
Библиотека позволяет:
- создавать токенизиторы слов и предложений
- считать базовые текстовые статистики (количество слов, предложений, знаков препинания, слогов и др.)
- считать метрики удобочитаемости текста (Тест Флеша-Кинкайда, Индекс SMOG, Индекс удобочитаемости LIX и др.)
- считать метрики лексического разнообразия текста (Type-Token Ratio, Measure of Textual Lexical Diversity, Гапакс-индекс и др.)
- извлекать морфологические признаки из текста (часть речи, падеж, наклонение, переходность и др.)
- работать с готовыми текстовыми наборами данных (Советские христоматии по литературе, Полное собрание сочинений И.В. Сталина)
- визуализировать текстовые данные (Закон Ципфа, Литературная дактилоскопия, Дерево слов)
- создавать компоненты для встраивания в spaCy
Структура проекта¶
- docs - документация по проекту
- ruts:
- basic_stats.py - базовые текстовые статистики
- components.py - компоненты spaCy
- constants.py - основные используемые константы
- diversity_stats.py - метрики лексического разнообразия текста
- extractors.py - инструменты для извлечения объектов из текста
- morph_stats.py - морфологические статистики
- readability_stats.py - метрики удобочитаемости текста
- utils.py - вспомогательные инструменты
- datasets - наборы данных:
- dataset.py - базовый класс для работы с наборами данных
- sov_chrest_lit.py - советские хрестоматии по литературе
- stalin_works.py - полное собрание сочинений И.В. Сталина
- visualizers - инструменты для визуализации текстов:
- fingerprinting.py - Литературная дактилоскопия
- word_tree.py - Дерево слов
- zipf.py - Закон Ципфа
- tests:
- test_basic_stats.py - тесты базовых текстовых статистик
- test_components.py - тесты компонентов spaCy
- test_diversity_stats.py - тесты метрик лексического разнообразия текста
- test_extractors.py - тесты инструментов для извлечения объектов из текста
- test_morph_stats - тесты морфологических статистик
- test_readability_stats.py - тесты метрик удобочитаемости текста
- datasets - тесты наборов данных:
- test_dataset.py - тесты базового класса для работы с наборами данных
- test_sov_chrest_lit.py - тесты набора данных советских хрестоматий по литературе
- test_stalin_works.py - тесты набора данных полного собрания сочинений И.В. Сталина
- visualizers - тесты инструментов для визуализации текстов:
- test_fingerprinting.py - тесты визуализации Литературная дактилоскопия
- test_word_tree.py - тесты визуализации Дерево слов
- test_zipf.py - тесты визуализации Закон Ципфа