Skip to content

ChaosClap/RBC_News_Keywords_Parser

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

rbc-keywords — подсчет ключевых слов в Excel-новостях (РБК) с лемматизацией

Этот инструмент читает Excel-выгрузки новостей (столбцы id, category, publish_date, text), лемматизирует русский текст и считает упоминания ключевых слов/фраз (включая словоформы). Вы можете считать как по леммам, так и по исходным формам.

Возможности

  • Импорт .xlsx (несколько файлов/листов)
  • Русская лемматизация (pymorphy2) и токенизация (razdel)
  • Поддержка фраз (n-грамм) и словарей ключей (строка на строку)
  • Отчеты по датам: количество совпадений и сколько текстов содержат хотя бы одно совпадение
  • Быстро работает за счет кэша лемм и пакетной обработки
  • CLI (rbc-keywords) + библиотечный API

Быстрый старт

pip install -e .           # из корня репо
rbc-keywords parse examples/input_data.xlsx --keywords examples/key_words.txt --out outputs/

Формат входа

Ожидается Excel с колонками:

  • id — идентификатор (необязательно)
  • category — рубрика (необязательно)
  • publish_date — ISO дата/время или дата
  • text — полный текст новости

Формат ключей

key_words.txt — по одному слову или фразе на строку. Пример:

война
военные действия
спецоперация
Wildberries
Apple

Примеры

В каталоге examples/ лежат примерные файлы: input_data.xlsx и key_words.txt.

Команды CLI

# Основная обработка Excel
rbc-keywords parse input.xlsx --keywords key_words.txt --lemma --out outputs/

# Обработка папки с файлами
rbc-keywords parse data/ --keywords key_words.txt --lemma --out outputs/ --workers 4

Флаги:

  • --lemma/--no-lemma — учитывать лемматизацию или нет (по умолчанию --lemma)
  • --top N — выгрузить топ-N ключей по частотам
  • --out PATH — директория для сохранения by_date.csv и top_keywords.csv
  • --workers N — параллельная обработка по файлам

Выходные файлы

  • by_date.csv — агрегированная статистика по дням:
    • date — дата публикации (YYYY-MM-DD)
    • keywords_count — общее число вхождений ключей
    • texts_with_hits — сколько текстов содержат хотя бы одно вхождение
    • row_indices — индексы строк исходной таблицы, где были совпадения
  • top_keywords.csv — частоты по каждому ключу (или лемме)

Ограничения

  • Качество лемматизации зависит от качества текста и опечаток
  • Для фраз порядок слов не учитывается по умолчанию (см. опцию --ordered-phrases в CLI)

Лицензия

MIT

About

Инструмент для подсчёта упоминаний ключевых слов и фраз в русскоязычных текстах из Excel (новости РБК). Поддерживает лемматизацию (pymorphy2), токенизацию (razdel), анализ по датам, построение топа ключей и два режима поиска фраз — с учётом порядка слов и без.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages