Python 科研工具开发者 | PDF 解析 · LLM 信息提取 · CLI 工具链
把科研论文中的器件性能数据,从 PDF 变成结构化 Excel —— 自动化、可溯源、带校验
Building paper-analysis-toolkit v4 — PDF 论文智能分析 CLI,支持 regex 本地兜底 + LLM API 双模式 Refactoring paper-analysis-toolkit-agentflow — Agent-First 架构重构,LangGraph 多 Agent 工作流引擎 Exploring 量子点材料科学领域的自动化数据挖掘 pipeline 与期刊影响因子自动补全
从零独立开发科研领域工具,覆盖从 PDF 解析到数据提取到报告生成的完整链路。
| 项目名称 | 类型 | 技术栈 | 描述 |
|---|---|---|---|
| AI 数据处理平台 | 后端服务 | Python, FastAPI, MongoDB | 企业级数据处理与分析平台,支持大规模数据处理 |
| 智能文档管理系统 | 全栈应用 | React, Node.js, PostgreSQL | 基于 AI 的文档管理与检索系统 |
| 自动化测试框架 | 工具链 | Python, pytest, Selenium | 企业内部自动化测试工具,提高测试效率 |
Updated paper-analysis-toolkit v4.1 — 新增支持 Longcat API,优化 OCR 处理流程
Released quantum-dot-miner v1.0 — 量子点材料科学数据挖掘工具,支持自动提取和分析量子点性能数据
Developing lab-automation-system — 实验室自动化管理系统,集成实验设备控制与数据采集
在项目中做过的关键选型和设计决策,这些是我思考技术问题的方式:
| 决策 | 选择 | 原因 |
|---|---|---|
| 提取策略 | LLM API + Regex 本地兜底双模式 | API 不稳定或超限时自动降级,保证离线可用 |
| PDF 解析 | MinerU CLI + PaddleOCR 双通道 | MinerU 处理标准 PDF,OCR 兜底扫描件/图表 |
| 缓存机制 | PDF MD5 指纹去重 | 避免重复解析,支持增量处理上百篇论文 |
| 配置管理 | Click CLI + 交互式配置向导 | 科研用户非技术背景,需要零配置开箱即用 |
| 架构演进 | 单体 → Agent-First (LangGraph) | 将解析/提取/校验拆分为独立 Agent,提升可测试性和扩展性 |
| 打包分发 | PyPI + Electron 桌面壳 | CLI 满足批量场景,GUI 满足非技术用户 |
| 影响因子 | AI 自动补全 + 人工校验 | 从期刊名称自动匹配 JCR/IF 数据,降低人工查表成本 |
- 方向: Python 后端 / AI 应用开发 / 科研工具链 / 数据工程
- 偏好: 有产品感的团队,认可独立开发经历,技术驱动
- 时间: 全职 / 远程优先


