Извлечение предложений¶
ruts.extractors.SentsExtractor
Описание¶
Модуль для извлечения предложений из текста. Позволяет использовать различные токенизаторы, а также настраивать минимальную и максимальную длину извлекаемых предложений.
Примечание
В качестве токенизитора по умолчанию используется функция sentenize
из библиотеки razdel.
Параметры¶
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
tokenizer |
Pattern/Сallable | None |
Токенизатор или регулярное выражение |
min_len |
int | 0 |
Минимальная длина извлекаемого предложения |
max_len |
int | 0 |
Максимальная длина извлекаемого предложения |
Методы¶
extract¶
Выполняет извлечение предложений из текста.
Параметры:
Параметр | Тип | По умолчанию | Описание |
---|---|---|---|
text |
str | - |
Строка текста |
Рассмотрим пример извлечения предложений, используя в качестве токенизитора регулярное выражение:
Пример
Код:
# Загрузка библиотек
import re
from ruts import SentsExtractor
# Подготовка данных
text = "Не имей 100 рублей, а имей 100 друзей"
# Извлечение предложений
se = SentsExtractor(tokenizer=re.compile(r', '))
se.extract(text)
Результат:
('Не имей 100 рублей', 'а имей 100 друзей')