Перейти к содержанию

Извлечение предложений

ruts.extractors.SentsExtractor

Описание

Модуль для извлечения предложений из текста. Позволяет использовать различные токенизаторы, а также настраивать минимальную и максимальную длину извлекаемых предложений.

Примечание

В качестве токенизитора по умолчанию используется функция sentenize из библиотеки razdel.

Параметры

Параметр Тип По умолчанию Описание
tokenizer Pattern/Сallable None Токенизатор или регулярное выражение
min_len int 0 Минимальная длина извлекаемого предложения
max_len int 0 Максимальная длина извлекаемого предложения

Методы

extract

Выполняет извлечение предложений из текста.

Параметры:

Параметр Тип По умолчанию Описание
text str - Строка текста

Рассмотрим пример извлечения предложений, используя в качестве токенизитора регулярное выражение:

Пример

Код:

# Загрузка библиотек
import re
from ruts import SentsExtractor

# Подготовка данных
text = "Не имей 100 рублей, а имей 100 друзей"

# Извлечение предложений
se = SentsExtractor(tokenizer=re.compile(r', '))
se.extract(text)

Результат:

('Не имей 100 рублей', 'а имей 100 друзей')