rbc-keywords — подсчет ключевых слов в Excel-новостях (РБК) с лемматизацией

Этот инструмент читает Excel-выгрузки новостей (столбцы id, category, publish_date, text), лемматизирует русский текст и считает упоминания ключевых слов/фраз (включая словоформы). Вы можете считать как по леммам, так и по исходным формам.

Возможности

Импорт .xlsx (несколько файлов/листов)
Русская лемматизация (pymorphy2) и токенизация (razdel)
Поддержка фраз (n-грамм) и словарей ключей (строка на строку)
Отчеты по датам: количество совпадений и сколько текстов содержат хотя бы одно совпадение
Быстро работает за счет кэша лемм и пакетной обработки
CLI (rbc-keywords) + библиотечный API

Быстрый старт

pip install -e .           # из корня репо
rbc-keywords parse examples/input_data.xlsx --keywords examples/key_words.txt --out outputs/

Формат входа

Ожидается Excel с колонками:

id — идентификатор (необязательно)
category — рубрика (необязательно)
publish_date — ISO дата/время или дата
text — полный текст новости

Формат ключей

key_words.txt — по одному слову или фразе на строку. Пример:

война
военные действия
спецоперация
Wildberries
Apple

Примеры

В каталоге examples/ лежат примерные файлы: input_data.xlsx и key_words.txt.

Команды CLI

# Основная обработка Excel
rbc-keywords parse input.xlsx --keywords key_words.txt --lemma --out outputs/

# Обработка папки с файлами
rbc-keywords parse data/ --keywords key_words.txt --lemma --out outputs/ --workers 4

Флаги:

--lemma/--no-lemma — учитывать лемматизацию или нет (по умолчанию --lemma)
--top N — выгрузить топ-N ключей по частотам
--out PATH — директория для сохранения by_date.csv и top_keywords.csv
--workers N — параллельная обработка по файлам

Выходные файлы

by_date.csv — агрегированная статистика по дням:
- date — дата публикации (YYYY-MM-DD)
- keywords_count — общее число вхождений ключей
- texts_with_hits — сколько текстов содержат хотя бы одно вхождение
- row_indices — индексы строк исходной таблицы, где были совпадения
top_keywords.csv — частоты по каждому ключу (или лемме)

Ограничения

Качество лемматизации зависит от качества текста и опечаток
Для фраз порядок слов не учитывается по умолчанию (см. опцию --ordered-phrases в CLI)

Лицензия

MIT

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
examples		examples
src/rbc_keywords		src/rbc_keywords
tests		tests
.gitignore		.gitignore
README.md		README.md
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

rbc-keywords — подсчет ключевых слов в Excel-новостях (РБК) с лемматизацией

Возможности

Быстрый старт

Формат входа

Формат ключей

Примеры

Команды CLI

Выходные файлы

Ограничения

Лицензия

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

rbc-keywords — подсчет ключевых слов в Excel-новостях (РБК) с лемматизацией

Возможности

Быстрый старт

Формат входа

Формат ключей

Примеры

Команды CLI

Выходные файлы

Ограничения

Лицензия

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages