Skip to content

Releases: bdcdo/dataframeit

v0.6.0

20 Apr 20:28
13615da

Choose a tag to compare

Removido

  • Colunas _total_tokens e _search_count do DataFrame de saída (#69). Totais continuam no summary de console; _search_count segue interno para o cálculo de _search_credits.

Adicionado

  • Inferência automática de text_column em DataFrames quando None (#93): tenta texto, text, decisao, content, content_text em ordem; DataFrames de 1 coluna usam-na direto.
  • Coluna _reasoning_tokens para modelos com reasoning (GPT-5, o-series, Claude thinking) (#65). Extraída de usage_metadata.output_token_details["reasoning"]; aparece no summary como sub-bullet do Output.
  • Suporte opcional a Groq (#94): novo provider disponível via pip install dataframeit[groq]. Use com provider='groq' e modelos como llama-3.3-70b-versatile ou llama-3.1-8b-instant. Requer GROQ_API_KEY.
  • Aviso de rate limit para busca web (#67): dataframeit(...) agora emite um UserWarning quando a combinação de use_search=True, parallel_requests e search_per_field pode exceder o rate limit do provedor de busca (Tavily ou Exa). A mensagem inclui recomendações específicas de parallel_requests e rate_limit_delay. O aviso também dispara em execuções sequenciais quando o total de queries estimadas (linhas × campos) ultrapassa 100.
  • Checkpoint periódico em execuções longas (#92): novos parâmetros batch_size e checkpoint_path em dataframeit(). Salva o DataFrame a cada N linhas processadas (escrita atômica via .tmp + rename) e um save final cobre a cauda quando o total não é múltiplo de batch_size. Formatos: .csv, .xlsx, .parquet — dependências (openpyxl, pyarrow) são validadas antes do processamento iniciar. Combinado com resume=True, permite retomar execuções longas após kill/crash sem perder progresso.
  • Novo extra excel com openpyxl (pip install dataframeit[excel]), também incluído em all. Necessário para checkpoint_path="*.xlsx" e read_df() sobre arquivos Excel.
  • Documentação de rate limits e processamento paralelo em docs/guides/web-search.md e docs/en/guides/web-search.md, com tabelas de configurações recomendadas por provedor.

Corrigido

  • Filtrar UserWarning: Field name X shadows ... do langchain_tavily no import do provider (#74). Filtro específico ao módulo upstream.
  • pyarrow adicionado como dependência dos extras polars e all. Versões recentes de polars requerem pyarrow para polars.DataFrame.to_pandas(); sem isso, passar um polars DataFrame para dataframeit() levantava ModuleNotFoundError.

v0.5.1

09 Jan 00:45

Choose a tag to compare

DataFrameIt v0.5.1

Initial release of DataFrameIt - Enrich DataFrames with LLMs.

Features

  • Multiple LLM providers (Google Gemini, OpenAI GPT, Anthropic Claude, Cohere, Mistral)
  • Structured output with Pydantic validation
  • Automatic retry with exponential backoff
  • Parallel processing with auto-tuning
  • Web search integration with Tavily
  • Support for DataFrame, Series, list, and dict inputs