Projeto acadêmico de análise de dados desenvolvido em Python, com foco em estatística descritiva e visualização de dados. Utiliza um dataset simulado de salários anuais para demonstrar técnicas fundamentais de análise exploratória de dados (EDA).
Este projeto realiza uma análise completa da distribuição de salários, incluindo:
- Geração de dataset realista com dados comuns e outliers
- Cálculo de medidas descritivas
- Visualizações profissionais (Histograma e Boxplot)
- Interpretação automática dos resultados estatísticos
- Identificação e contextualização de outliers
A análise gera os seguintes outputs:
- Média: R$ 54.76 mil
- Mediana: R$ 51.02 mil
- Moda: R$ 55.00 mil
- Variância: 799.62
- Desvio Padrão: 28.28
- Histograma com curva KDE, linha de média e mediana
- Boxplot com identificação visual de outliers
- Análise de assimetria da distribuição
- Identificação de outliers via método IQR
- Contextualização dos resultados no domínio de negócios
- Python 3.7 ou superior
- Jupyter Notebook ou Google Colab
pip install -r requirements.txtOpção 1: Jupyter Notebook
jupyter notebook Projeto.ipynbOpção 2: Google Colab
- Faça upload do arquivo
Projeto.ipynbno Google Colab - Execute todas as células em sequência
analise-salarios-python/
├── Projeto.ipynb ← Notebook principal com toda a análise
├── README.md ← Documentação do projeto
├── requirements.txt ← Dependências do projeto
└── .gitignore ← Arquivos ignorados pelo Git
- Python 3.7+ — Linguagem principal
- Pandas — Manipulação e análise de dados
- NumPy — Computação numérica e geração de dados
- Matplotlib — Visualizações gráficas
- Seaborn — Visualizações estatísticas avançadas
- SciPy — Computação científica e estatística
O dataset foi gerado de forma controlada para simular uma distribuição realista de salários:
- 210 registros no total
- 200 registros com distribuição normal (salários comuns)
- Média: R$ 50 mil, Desvio Padrão: R$ 15 mil
- 10 registros simulando executivos/diretores (outliers)
- Média: R$ 150 mil, Desvio Padrão: R$ 20 mil
Essa composição resulta em uma distribuição com assimetria à direita, fenômeno comum em dados reais de remuneração.
- Assimetria Positiva: A distribuição apresenta cauda alongada à direita
- Impacto dos Outliers: A média (R$ 54.76 mil) é maior que a mediana (R$ 51.02 mil), evidenciando o impacto dos salários elevados
- Outliers Identificados: 11 registros acima de R$ 89.59 mil, representando cargos executivos
- Interpretação de Negócio: Os outliers são esperados e justificados no contexto de uma empresa com hierarquia salarial definida
- Análise com dataset real de mercado de trabalho
- Comparação entre diferentes setores da economia
- Modelos preditivos de faixas salariais
- Dashboard interativo com Plotly ou Streamlit
- Análise temporal de evolução salarial
Desenvolvido como projeto acadêmico em Python com foco em análise estatística e visualização de dados.
Este projeto é de código aberto e pode ser usado livremente para fins educacionais.