文本化工具

OCR后文本校对工具

用来校对分页的文本，自动进行文本比较和对齐，可以加载PaddleOCR数据，
使用方法：

新建config.json文件，填入配置信息保存示例

{
    "pdf_path": "拉汉科技词典.pdf",
    "image_dir": "images",
    "start_page": 1,
    "end_page": 799,
    "page_offset": 10,
    "text_path_left": "拉汉科技词典_gemini.txt",
    "text_path_right": "拉汉科技词典_quark.txt",
    "ocr_json_path": "ocr_results",
    "regex_left": "^\\*\\*(.*?)\\*\\*",
    "regex_right": "^([a-zA-Z]+)",
    "ocr_api_url": "",
    "ocr_api_token": ""
}

pdf_path和image_dir选择一个填入即可
start_page：起始页码
end_page：结束页码
page_offset：页码便宜，就是第一页对应pdf中的多少页
text_path_left，text_path_right：左右的文本，分页符为<页码>
ocr_json_path：用于存放paddleocr返回的json，json文件名需要是page_页码.json的格式
regex_left，regex_right左右两侧的词头正则表达式，选填，用于高亮词头
ocr_api_ur，ocr_api_token：paddleocr的api地址和token，可以在官网申请

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
README.md		README.md
ocr_proofreading.py		ocr_proofreading.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

文本化工具

OCR后文本校对工具

About

Uh oh!

Releases

Packages

Languages

wynick27/DigitizationTools

Folders and files

Latest commit

History

Repository files navigation

文本化工具

OCR后文本校对工具

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages