Deep PDF

Este é um aplicativo para localizar conteúdo em PDF. Obs: Para que encontre o termo buscado, é necessário garantir que o PDF não seja lido como uma imagem. O robô consegue localizar apenas textos dentro do PDF. Para que o programa funcione no windows, é necessário que o pytessract esteja instalado e localizado na pasta padrão C:\Program Files\Tesseract-OCR\tesseract.exe Download disponível em: https://github.com/UB-Mannheim/tesseract/wiki

Esse aplicativo tem duas funcionalidades principais:

Busca de Texto em PDFs

Selecionar Diretório: O usuário pode selecionar um diretório contendo arquivos PDF.
Inserir Texto de Busca: O usuário insere o texto que deseja buscar nos PDFs.
Iniciar Busca: Ao clicar no botão "Buscar", o script procura o texto inserido em todos os PDFs do diretório e subdiretórios.
Resultados: Os PDFs que contêm o texto buscado são listados na interface, com links clicáveis para abrir a localização do arquivo.
Barra de Progresso: Uma barra de progresso indica o andamento da busca.
Contagem de Resultados: Exibe a quantidade de arquivos encontrados que contêm o texto buscado.
Salvar Resultados: O programa seleciona o diretório destino que o usuário escolhe para copiar os PDFs encontrados.

Conversão de PDFs para Pesquisáveis (OCR):

Selecionar Arquivos: O usuário pode selecionar múltiplos arquivos PDF não pesquisáveis.
Selecionar Diretório de Saída: O usuário seleciona um diretório onde os PDFs convertidos serão salvos.
Conversão OCR: O script converte os PDFs não pesquisáveis para PDFs pesquisáveis usando OCR. Observação IMPORTANTE!:

Para garantir que o OCR traduza o conteúdo escaneado de PDF para texto pesquisável da melhor forma possível, deve-se observar:
- Resolução: Assegure-se de que as imagens têm alta resolução. Aumentar a resolução pode melhorar a precisão do OCR. Idealmente, use uma resolução de pelo menos 300 DPI.
- Contraste: Garanta um bom contraste entre o texto e o fundo. Textos escuros em fundos claros são ideais.
- Ruído: Minimize o ruído nas imagens. Imagens claras e sem manchas ou artefatos são mais fáceis para o OCR processar corretamente.
Barra de Progresso: Indica o andamento da conversão OCR.
Notificação de Conclusão: Exibe uma mensagem ao finalizar a conversão.

Criando um ambiente de desenvolvimento para rodar o arquivo python desse projeto

tkinter: Normalmente vem pré-instalado com o Python em muitas distribuições, especialmente no Windows. Caso contrário, pode ser necessário instalar a partir do gerenciador de pacotes do sistema operacional.
tkhtmlview: Biblioteca para exibir HTML em Tkinter.
Pillow: Biblioteca para manipulação de imagens.
PyMuPDF: Interface Python para o MuPDF.
pytesseract: Necessário instalar o tesseract para windows disponível no seguinte link: https://github.com/UB-Mannheim/tesseract/wiki Para linux:

pip install tkhtmlview Pillow PyMuPDF pytesseract PyPDF2
sudo apt update
sudo apt install tesseract-ocr

PyPDF2: Biblioteca para manipulação de PDFs.

Comando usado para compilar no windows:

pyinstaller --windowed --onefile --icon=ico.ico deepPDF.py

Comando usado para compilar no linux:

#linux
pip install pyinstaller
pyinstaller deepPDF.py --windowed --onefile

Compilado e testado no linux mint virginia 21.3 x86_64 . Compilado no linux mint

Compilado e testado no Windows x64. Compilado no Windows 11

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
icon		icon
README.md		README.md
deepPDF.py		deepPDF.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Deep PDF

Busca de Texto em PDFs

Conversão de PDFs para Pesquisáveis (OCR):

Criando um ambiente de desenvolvimento para rodar o arquivo python desse projeto

Comando usado para compilar no windows:

Comando usado para compilar no linux:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Deep PDF

Busca de Texto em PDFs

Conversão de PDFs para Pesquisáveis (OCR):

Criando um ambiente de desenvolvimento para rodar o arquivo python desse projeto

Comando usado para compilar no windows:

Comando usado para compilar no linux:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages