🛡️ CyberAttack Log Analysis with Machine Learning

Un framework completo per l'analisi avanzata dei log di attacchi informatici utilizzando tecniche di Machine Learning e Deep Learning. Il progetto è progettato per identificare pattern di attacco, valutare l'efficacia delle regole di sicurezza e automatizzare la detection di minacce attraverso modelli predittivi.

🎯 Caratteristiche Principali

📊 Analisi Esplorativa dei Dati

Visualizazzioni interattive con Plotly e Altair
Analisi statistica delle regole di sicurezza
Metriche di performance (Precision, Recall, F1-Score)
Correlazioni tra eventi e variabili

🤖 Machine Learning

Modelli classici: Random Forest, XGBoost, CatBoost, SVM
Ensemble methods: AdaBoost, Extra Trees
Hyperparameter tuning automatico con GridSearch
Cross-validation e valutazione robusta

🧠 Deep Learning

Reti neurali con Keras/TensorFlow
Architetture personalizzabili per detection
Training automatizzato con early stopping

🔍 Pattern Recognition

Identificazione sequenze di attacco
Analisi MITRE ATT&CK framework
Detection di anomalie comportamentali
Clustering di eventi simili

📈 Reporting e Visualizzazione

Dashboard interattive in HTML
Report automatici in Markdown
Grafici esportabili per presentazioni
Metriche real-time delle performance

🚀 Quick Start

Prerequisiti

Python 3.8+
Jupyter Notebook
Git

Installazione

# Clona il repository
git clone https://github.com/LeoAlb208/CyberLogML.git
cd CyberLogML

# Installa le dipendenze
pip install -r requirements.txt

# Oppure usa pipenv
pipenv install
pipenv shell

Utilizzo Base

# Importa i moduli necessari
from src.csv_preprocessing_scaler import CsvPreprocessingScaler
from src.run_log_parser import RunLogParser
from src.plots import Plots

# Carica i dati
df = CsvPreprocessingScaler.read_csv_file("data/input/LogSplunkWF_03_07.csv")
attack_files = ['data/input/attackLog_03_07.csv']

# Preprocessing
df_processed = CsvPreprocessingScaler.RawPreprocessing(df)
result_df = RunLogParser.process_attacks(attack_files[0], df_processed)

# Visualizza analisi
Plots.plot_cake_attack(result_df)
Plots.plot_top_10_signatures(result_df)

📁 Struttura del Progetto

CyberLogML/
├── 📁 data/
│   ├── 📁 input/           # Dati grezzi (Splunk logs, attack logs)
│   └── 📁 processed/       # Dati elaborati e combinati
├── 📁 notebooks/           # Jupyter notebooks per analisi
│   ├── analisi_log_attacco.ipynb         # Analisi completa
│   ├── analisi_light_attacchi.ipynb      # Analisi veloce
│   ├── analisi_log_attacco_all_csv.ipynb # Analisi dataset combinati
│   └── analisi_pattern.ipynb             # Riconoscimento pattern
├── 📁 src/                 # Codice sorgente Python
│   ├── lib.py                            # Librerie centralizzate  
│   ├── csv_preprocessing_scaler.py       # Preprocessing dati
│   ├── run_log_parser.py                 # Parser log attacchi
│   ├── plots.py                          # Visualizzazioni
│   ├── attack_pattern_analyzer.py        # Analisi pattern
│   └── ... (altri moduli ML/DL)
├── 📁 scripts/             # Script di automazione
│   └── ExRandomGroupAttack.ps1          # Generatore attacchi MITRE
├── 📁 outputs/             # File HTML e risultati
└── 📄 docs/                # Documentazione aggiuntiva

🔧 Notebooks Disponibili

1. `analisi_log_attacco.ipynb` - Analisi Completa

Il notebook principale che include:

Import e preprocessing dati completo
Analisi grafica dettagliata degli attacchi rilevati
Valutazione delle severity per ogni attacco
Analisi della robustezza delle regole di sicurezza
Training completo dei modelli ML/DL
Generazione matrici di correlazione

2. `analisi_light_attacchi.ipynb` - Analisi Veloce

Versione ottimizzata per analisi rapide:

Caricamento dati accelerato con dataset reali
Visualizzazioni essenziali degli attacchi
Focus su pattern recognition
Ideale per esplorazioni preliminari

3. `analisi_log_attacco_all_csv.ipynb` - Dataset Unificati

Analisi su dataset combinati:

Unificazione automatica di tutti i log disponibili
Analisi cross-dataset su timeframe estesi
Pattern globali identificati su più periodi

4. `analisi_pattern.ipynb` - Pattern Recognition Avanzato

Specializzato nell'identificazione pattern:

Algoritmi avanzati di pattern matching
Riconoscimento sequenze MITRE ATT&CK
Clustering comportamentale degli eventi

🎯 Script di Automazione

`ExRandomGroupAttack.ps1` - Generatore Attacchi MITRE

Script PowerShell per automatizzare test di sicurezza:

Carica il modulo Invoke-AtomicRedTeam
Esegue tecniche di attacco del framework MITRE ATT&CK
Registra dettagli temporali e codici di uscita in CSV
Gestisce trascrizioni dettagliate delle esecuzioni

🎨 Visualizzazioni Interattive

Il progetto genera automaticamente file HTML con grafici interattivi che includono:

Dashboard attacchi: Overview generale degli attacchi rilevati
Heatmap correlazioni: Relazioni tra variabili di sicurezza
Timeline attacchi: Evoluzione temporale delle minacce
Performance regole: Efficacia delle rule di detection
Pattern visualization: Rappresentazione grafica dei pattern identificati

💡 Suggerimento: I grafici interattivi sono salvati nella cartella outputs/ e possono essere aperti direttamente nel browser per un'esperienza di visualizzazione ottimale.

🛠️ Configurazione e Personalizzazione

File di Input

Posiziona i tuoi dati nelle cartelle appropriate:

data/input/
├── LogSplunkWF_YYYY_MM_DD.csv    # Log eventi Splunk
└── attackLog_YYYY_MM_DD.csv       # Log temporali attacchi

Personalizzazione Analisi

Nei notebook puoi modificare:

Severity values: Soglie di criticità per filtering
Numero eventi: Eventi da considerare nell'analisi pattern
Regole specifiche: Focus su regole di sicurezza particolari
Parametri ML: Iperparametri dei modelli

Esempio Configurazione

# Configura parametri analisi
severity_value = 73  # Soglia criticità
num_attacks = 10     # Attacchi precedenti da considerare
eventi_da_considerare = 5  # Eventi pre-attivazione regola

# Seleziona regola specifica
regola_scelta = 'suspicious-unsigned-dbghelp/dbgcore-dll-loaded'

🔧 Moduli Principali

📊 Data Processing

lib.py - Librerie centralizzate per il progetto
csv_preprocessing_scaler.py - Preprocessing completo, scaling e encoding (OneHot/Label)
run_log_parser.py - Parsing log attacchi e correlazione con eventi di sicurezza
attack_log_unification.py - Unificazione automatica di dataset multipli

📈 Visualization & Analysis

plots.py - Grafici statistici principali (percentuali attacchi, top regole, distribuzioni)
plots_single_attack.py - Analisi dettagliata di regole specifiche con timeline
correlation_matrix_plots.py - Matrici di correlazione per encoding multipli
stat_severity.py - Analisi criticità (max, mean, min) per ogni attacco
utils.py - Utilities per descrizioni e markdown

🤖 Machine Learning

initial_training.py - Training modelli base (Decision Tree, Random Forest, etc.)
hyperparameter_tuning.py - Ottimizzazione iperparametri con GridSearch
advanced_models.py - Modelli avanzati (XGBoost, CatBoost)
deep_learning_model.py - Reti neurali con Keras/TensorFlow
model_evaluator.py - Valutazione e confronto performance modelli
preprocessing_train_test_split.py - Divisione dataset per training/test

🔍 Pattern Recognition

attack_pattern_analyzer.py - Analisi pattern comportamentali e sequenze temporali
signatures_patterns.py - Identificazione sequenze ricorrenti durante attacchi
sigma_rule_analysis.py - Valutazione efficacia e robustezza regole Sigma
signature_stats_calculator.py - Calcolo statistiche impatto rimozione regole

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
notebooks		notebooks
outputs		outputs
scripts		scripts
src		src
.gitattributes		.gitattributes
.gitignore		.gitignore
Descrizione del progetto.md		Descrizione del progetto.md
LICENSE		LICENSE
Pipfile		Pipfile
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🛡️ CyberAttack Log Analysis with Machine Learning

🎯 Caratteristiche Principali

📊 Analisi Esplorativa dei Dati

🤖 Machine Learning

🧠 Deep Learning

🔍 Pattern Recognition

📈 Reporting e Visualizzazione

🚀 Quick Start

Prerequisiti

Installazione

Utilizzo Base

📁 Struttura del Progetto

🔧 Notebooks Disponibili

1. `analisi_log_attacco.ipynb` - Analisi Completa

2. `analisi_light_attacchi.ipynb` - Analisi Veloce

3. `analisi_log_attacco_all_csv.ipynb` - Dataset Unificati

4. `analisi_pattern.ipynb` - Pattern Recognition Avanzato

🎯 Script di Automazione

`ExRandomGroupAttack.ps1` - Generatore Attacchi MITRE

🎨 Visualizzazioni Interattive

🛠️ Configurazione e Personalizzazione

File di Input

Personalizzazione Analisi

Esempio Configurazione

🔧 Moduli Principali

📊 Data Processing

📈 Visualization & Analysis

🤖 Machine Learning

🔍 Pattern Recognition

About

Uh oh!

Languages

License

LeoAlb208/CyberLogML

Folders and files

Latest commit

History

Repository files navigation

🛡️ CyberAttack Log Analysis with Machine Learning

🎯 Caratteristiche Principali

📊 Analisi Esplorativa dei Dati

🤖 Machine Learning

🧠 Deep Learning

🔍 Pattern Recognition

📈 Reporting e Visualizzazione

🚀 Quick Start

Prerequisiti

Installazione

Utilizzo Base

📁 Struttura del Progetto

🔧 Notebooks Disponibili

1. analisi_log_attacco.ipynb - Analisi Completa

2. analisi_light_attacchi.ipynb - Analisi Veloce

3. analisi_log_attacco_all_csv.ipynb - Dataset Unificati

4. analisi_pattern.ipynb - Pattern Recognition Avanzato

🎯 Script di Automazione

ExRandomGroupAttack.ps1 - Generatore Attacchi MITRE

🎨 Visualizzazioni Interattive

🛠️ Configurazione e Personalizzazione

File di Input

Personalizzazione Analisi

Esempio Configurazione

🔧 Moduli Principali

📊 Data Processing

📈 Visualization & Analysis

🤖 Machine Learning

🔍 Pattern Recognition

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Languages

1. `analisi_log_attacco.ipynb` - Analisi Completa

2. `analisi_light_attacchi.ipynb` - Analisi Veloce

3. `analisi_log_attacco_all_csv.ipynb` - Dataset Unificati

4. `analisi_pattern.ipynb` - Pattern Recognition Avanzato

`ExRandomGroupAttack.ps1` - Generatore Attacchi MITRE