Перейти к содержанию

Russian Texts Statistics (ruTS)

ruts

Библиотека для извлечения статистик из текстов на русском языке.

Функционал

Основной функционал базируется на адаптированных для русского языка статистиках библиотеки textacy и позволяет работать как непосредственно с текстами, так и с подготовленными Doc-объектами библиотеки spaCy.

Библиотека позволяет:

Структура проекта

  • docs - документация по проекту
  • ruts:
    • basic_stats.py - базовые текстовые статистики
    • components.py - компоненты spaCy
    • constants.py - основные используемые константы
    • diversity_stats.py - метрики лексического разнообразия текста
    • extractors.py - инструменты для извлечения объектов из текста
    • morph_stats.py - морфологические статистики
    • readability_stats.py - метрики удобочитаемости текста
    • utils.py - вспомогательные инструменты
    • datasets - наборы данных:
      • dataset.py - базовый класс для работы с наборами данных
      • sov_chrest_lit.py - советские хрестоматии по литературе
      • stalin_works.py - полное собрание сочинений И.В. Сталина
    • visualizers - инструменты для визуализации текстов:
      • fingerprinting.py - Литературная дактилоскопия
      • word_tree.py - Дерево слов
      • zipf.py - Закон Ципфа
  • tests:
    • test_basic_stats.py - тесты базовых текстовых статистик
    • test_components.py - тесты компонентов spaCy
    • test_diversity_stats.py - тесты метрик лексического разнообразия текста
    • test_extractors.py - тесты инструментов для извлечения объектов из текста
    • test_morph_stats - тесты морфологических статистик
    • test_readability_stats.py - тесты метрик удобочитаемости текста
    • datasets - тесты наборов данных:
      • test_dataset.py - тесты базового класса для работы с наборами данных
      • test_sov_chrest_lit.py - тесты набора данных советских хрестоматий по литературе
      • test_stalin_works.py - тесты набора данных полного собрания сочинений И.В. Сталина
    • visualizers - тесты инструментов для визуализации текстов:
      • test_fingerprinting.py - тесты визуализации Литературная дактилоскопия
      • test_word_tree.py - тесты визуализации Дерево слов
      • test_zipf.py - тесты визуализации Закон Ципфа