Code Tokenizer

一个简单的命令行工具，快速统计整个项目的AI模型Token使用量，帮你判断项目是否适合直接给AI分析。

现代LLM模型（如GPT-4 Turbo、Claude-4）的上下文长度已达200k+，完全可以一次性加载整个项目代码。如果项目的所有代码加起来Token数小于200k，完全可以把整个项目一次性提交给LLM模型进行分析，而不是逐个文件让模型读取。本工具提供了一键打包所有代码到单文件的功能，让你轻松实现这一点。

🎯 功能

Token统计 - 精确计算整个项目的代码在不同AI模型中的Token数量
上下文分析 - 显示项目占用各AI模型上下文窗口的比例，判断是否超出限制
一键打包 - 将所有代码文件合并为单个文件，方便一次性提交给AI
智能过滤 - 自动排除无关文件（node_modules、.git等），保留核心代码
GitIgnore 集成 - 自动读取并应用 .gitignore 规则来过滤被忽略的文件和文件夹

📦 安装

pip install code-tokenizer

🚀 使用

# 统计当前项目的Token数量
code-tokenizer

# 统计指定项目的Token数量
code-tokenizer /path/to/project

# 统计并打包所有代码到单个文件
code-tokenizer --package my_project.txt

# 只显示最大的5个文件
code-tokenizer --max-show 5

# 禁用自动 .gitignore 规则集成
code-tokenizer --no-gitignore

📊 运行示例

🔧 支持的文件类型

Go, Python, JavaScript, TypeScript, Java, C/C++, Swift, Kotlin, PHP, Ruby, Vue, HTML, CSS, YAML, JSON, XML, SQL, Shell脚本, Markdown等

⚠️ 免责声明

本项目基于 OpenAI tiktoken 开发。Token统计结果因不同AI模型的分词器差异仅供参考。

隐私保护： 本项目仅在本地运行，不会上传任何代码信息到外部服务器，保护您的代码隐私安全。

📄 许可证

MIT License

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Code Tokenizer

🎯 功能

📦 安装

🚀 使用

📊 运行示例

🔧 支持的文件类型

⚠️ 免责声明

📄 许可证

FilesExpand file tree

README_CN.md

Latest commit

History

README_CN.md

File metadata and controls

Code Tokenizer

🎯 功能

📦 安装

🚀 使用

📊 运行示例

🔧 支持的文件类型

⚠️ 免责声明

📄 许可证