Este é um aplicativo para localizar conteúdo em PDF. Obs: Para que encontre o termo buscado, é necessário garantir que o PDF não seja lido como uma imagem. O robô consegue localizar apenas textos dentro do PDF. Para que o programa funcione no windows, é necessário que o pytessract esteja instalado e localizado na pasta padrão C:\Program Files\Tesseract-OCR\tesseract.exe
Download disponível em: https://github.com/UB-Mannheim/tesseract/wiki
Esse aplicativo tem duas funcionalidades principais:
- Selecionar Diretório: O usuário pode selecionar um diretório contendo arquivos PDF.
- Inserir Texto de Busca: O usuário insere o texto que deseja buscar nos PDFs.
- Iniciar Busca: Ao clicar no botão "Buscar", o script procura o texto inserido em todos os PDFs do diretório e subdiretórios.
- Resultados: Os PDFs que contêm o texto buscado são listados na interface, com links clicáveis para abrir a localização do arquivo.
- Barra de Progresso: Uma barra de progresso indica o andamento da busca.
- Contagem de Resultados: Exibe a quantidade de arquivos encontrados que contêm o texto buscado.
- Salvar Resultados: O programa seleciona o diretório destino que o usuário escolhe para copiar os PDFs encontrados.
-
Selecionar Arquivos: O usuário pode selecionar múltiplos arquivos PDF não pesquisáveis.
-
Selecionar Diretório de Saída: O usuário seleciona um diretório onde os PDFs convertidos serão salvos.
-
Conversão OCR: O script converte os PDFs não pesquisáveis para PDFs pesquisáveis usando OCR. Observação IMPORTANTE!:
Para garantir que o OCR traduza o conteúdo escaneado de PDF para texto pesquisável da melhor forma possível, deve-se observar:
- Resolução: Assegure-se de que as imagens têm alta resolução. Aumentar a resolução pode melhorar a precisão do OCR. Idealmente, use uma resolução de pelo menos 300 DPI.
- Contraste: Garanta um bom contraste entre o texto e o fundo. Textos escuros em fundos claros são ideais.
- Ruído: Minimize o ruído nas imagens. Imagens claras e sem manchas ou artefatos são mais fáceis para o OCR processar corretamente.
-
Barra de Progresso: Indica o andamento da conversão OCR.
-
Notificação de Conclusão: Exibe uma mensagem ao finalizar a conversão.
- tkinter: Normalmente vem pré-instalado com o Python em muitas distribuições, especialmente no Windows. Caso contrário, pode ser necessário instalar a partir do gerenciador de pacotes do sistema operacional.
- tkhtmlview: Biblioteca para exibir HTML em Tkinter.
- Pillow: Biblioteca para manipulação de imagens.
- PyMuPDF: Interface Python para o MuPDF.
- pytesseract: Necessário instalar o tesseract para windows disponível no seguinte link: https://github.com/UB-Mannheim/tesseract/wiki Para linux:
pip install tkhtmlview Pillow PyMuPDF pytesseract PyPDF2
sudo apt update
sudo apt install tesseract-ocr- PyPDF2: Biblioteca para manipulação de PDFs.
pyinstaller --windowed --onefile --icon=ico.ico deepPDF.py#linux
pip install pyinstaller
pyinstaller deepPDF.py --windowed --onefileCompilado e testado no linux mint virginia 21.3 x86_64 . Compilado no linux mint
Compilado e testado no Windows x64. Compilado no Windows 11