Releases: bdcdo/dataframeit
Releases · bdcdo/dataframeit
v0.6.0
Removido
- Colunas
_total_tokense_search_countdo DataFrame de saída (#69). Totais continuam no summary de console;_search_countsegue interno para o cálculo de_search_credits.
Adicionado
- Inferência automática de
text_columnem DataFrames quandoNone(#93): tentatexto,text,decisao,content,content_textem ordem; DataFrames de 1 coluna usam-na direto. - Coluna
_reasoning_tokenspara modelos com reasoning (GPT-5, o-series, Claude thinking) (#65). Extraída deusage_metadata.output_token_details["reasoning"]; aparece no summary como sub-bullet do Output. - Suporte opcional a Groq (#94): novo provider disponível via
pip install dataframeit[groq]. Use comprovider='groq'e modelos comollama-3.3-70b-versatileoullama-3.1-8b-instant. RequerGROQ_API_KEY. - Aviso de rate limit para busca web (#67):
dataframeit(...)agora emite umUserWarningquando a combinação deuse_search=True,parallel_requestsesearch_per_fieldpode exceder o rate limit do provedor de busca (Tavily ou Exa). A mensagem inclui recomendações específicas deparallel_requestserate_limit_delay. O aviso também dispara em execuções sequenciais quando o total de queries estimadas (linhas × campos) ultrapassa 100. - Checkpoint periódico em execuções longas (#92): novos parâmetros
batch_sizeecheckpoint_pathemdataframeit(). Salva o DataFrame a cada N linhas processadas (escrita atômica via.tmp+ rename) e um save final cobre a cauda quando o total não é múltiplo debatch_size. Formatos:.csv,.xlsx,.parquet— dependências (openpyxl,pyarrow) são validadas antes do processamento iniciar. Combinado comresume=True, permite retomar execuções longas após kill/crash sem perder progresso. - Novo extra
excelcomopenpyxl(pip install dataframeit[excel]), também incluído emall. Necessário paracheckpoint_path="*.xlsx"eread_df()sobre arquivos Excel. - Documentação de rate limits e processamento paralelo em
docs/guides/web-search.mdedocs/en/guides/web-search.md, com tabelas de configurações recomendadas por provedor.
Corrigido
- Filtrar
UserWarning: Field name X shadows ...dolangchain_tavilyno import do provider (#74). Filtro específico ao módulo upstream. pyarrowadicionado como dependência dos extraspolarseall. Versões recentes de polars requerem pyarrow parapolars.DataFrame.to_pandas(); sem isso, passar um polars DataFrame paradataframeit()levantavaModuleNotFoundError.
v0.5.1
DataFrameIt v0.5.1
Initial release of DataFrameIt - Enrich DataFrames with LLMs.
Features
- Multiple LLM providers (Google Gemini, OpenAI GPT, Anthropic Claude, Cohere, Mistral)
- Structured output with Pydantic validation
- Automatic retry with exponential backoff
- Parallel processing with auto-tuning
- Web search integration with Tavily
- Support for DataFrame, Series, list, and dict inputs