Transformer Speech Recognition

This project implements and compares two main approaches for speech recognition:

Wav2Vec2 Embeddings Approach: pre-trained Wav2Vec2 transformers for extracting audio features, followed by simple classifiers (MLP/RNN)
CNN Spectrogram Approach: Audio converted to mel spectrograms and passed to convolutional neural network architecture

How to train the models?

The train.py script provides a unified interface for training all model types. Here's how to use it:

Basic Usage

python train.py --model <MODEL_TYPE> --data_type <DATA_TYPE> --data_dir <DATA_DIRECTORY> --config <CONFIG_FILE> --checkpoint_dir <CHECKPOINT_DIRECTORY>

Model Types Available

mlp: Multi-Layer Perceptron (requires embeddings)
rnn: Recurrent Neural Network (requires embeddings)
cnn: Convolutional Neural Network (requires spectrograms)
cnn_staging: Two-stage CNN system (requires spectrograms)

Example Commands

Train MLP with embeddings:

python train.py --model mlp --data_type embeddings --data_dir embeddings --config configs/mlp_config.json --checkpoint_dir checkpoints/MLP_experiment --epochs 40

Train CNN with spectrograms:

python train.py --model cnn --data_type spectrograms --data_dir spectrograms --config configs/cnn_config.json --checkpoint_dir checkpoints/CNN_experiment --epochs 60

Train RNN with custom batch size:

python train.py --model rnn --data_type embeddings --data_dir embeddings --config configs/rnn_config.json --checkpoint_dir checkpoints/RNN_experiment --epochs 50 --batch_size 64

Configuration Files

Create JSON configuration files in the configs/ directory. Example for MLP:

{
    "input_size": 768,
    "hidden_dim": 256,
    "num_classes": 12,
    "dropout": 0.3,
    "optimizer": "adam",
    "lr": 0.001,
    "weighted_loss": true
}

Command Line Options

--model: Model architecture (mlp/rnn/cnn/cnn_staging)
--data_type: Input data type (embeddings/spectrograms)
--data_dir: Directory containing preprocessed data files
--config: Path to JSON configuration file
--checkpoint_dir: Directory to save model checkpoints
--epochs: Number of training epochs (default: 40)
--batch_size: Training batch size (default: 32)
--weighted_sampling: Enable weighted sampling for imbalanced datasets
--device: Training device (auto/cpu/cuda, default: auto)

Prerequisites

Prepare your dataset by downloading audio files to the data/ directory and running the appropriate preprocessing script - precompute_embeddings.py for MLP/RNN models or precompute_spectrograms.py for CNN models.

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
.gitignore		.gitignore
README.md		README.md
audio_dataset.py		audio_dataset.py
create_silence_class.py		create_silence_class.py
dataset_builder.py		dataset_builder.py
graphics.py		graphics.py
models.py		models.py
precompute_embeddings.py		precompute_embeddings.py
precompute_spectrograms.py		precompute_spectrograms.py
requirements.txt		requirements.txt
spectrogram_processor.py		spectrogram_processor.py
train.py		train.py
trainer.py		trainer.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Transformer Speech Recognition

How to train the models?

Basic Usage

Model Types Available

Example Commands

Configuration Files

Command Line Options

Prerequisites

About

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Transformer Speech Recognition

How to train the models?

Basic Usage

Model Types Available

Example Commands

Configuration Files

Command Line Options

Prerequisites

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages