diff --git a/README.md b/README.md
index d57e7e6..5ed103e 100644
--- a/README.md
+++ b/README.md
@@ -1,146 +1,100 @@
-# LiteLLM Benchmarking System
-
-## Purpose
-
-This project provides a local-first benchmarking system for comparing provider, model, harness, and harness-configuration performance through a shared LiteLLM proxy.
-
-The system is built for interactive terminal agents and IDE agents that can be pointed at a custom inference base URL. The benchmark application does not own the harness runtime. It owns session registration, correlation, collection, normalization, storage, reporting, and dashboards.
-
-## What the system answers
-
-The completed system should make it easy to answer questions such as:
-
-- Which provider and model combination is fastest for the same task card and harness?
-- How does Claude Code compare with Codex, OpenCode, OpenHands, Gemini-oriented clients, or other agent harnesses when routed through the same local proxy?
-- Does a harness configuration change improve TTFT, total latency, output throughput, error rate, or cache behavior?
-- Does a provider-specific routing change improve session-level performance?
-- How much variance exists between repeated sessions of the same benchmark variant?
-
-## Recommended local stack
-
-Use Docker Compose for infrastructure and `uv` for the benchmark application.
-
-Infrastructure services:
-
-- LiteLLM proxy
-- PostgreSQL
-- Prometheus
-- Grafana
-
-Benchmark application capabilities:
-
-- config loading and validation
-- experiment, variant, and session registry
-- session credential issuance
-- harness env rendering
-- LiteLLM request collection and normalization
-- Prometheus metric collection and rollups
-- query API and exports
-- dashboards and reports
-
-## Core design choices
-
-1. LiteLLM is the single shared proxy and routing layer.
-2. Every interactive benchmark session gets a benchmark-owned session ID.
-3. Session correlation is built around a session-scoped proxy credential plus benchmark tags.
-4. The project stores canonical benchmark records in a project-owned database.
-5. LiteLLM and Prometheus are telemetry sources, not the canonical query model.
-6. Prompt and response content are disabled by default.
-7. The benchmark application stays harness-agnostic in its core path.
-
-## Primary workflow
-
-1. Define providers, harness profiles, variants, experiments, and task cards in versioned config files.
-2. Create a benchmark session for a chosen variant and task card.
-3. The session manager issues a session-scoped proxy credential and renders the exact environment snippet for the selected harness.
-4. Launch the harness manually and use it interactively against the local LiteLLM proxy.
-5. LiteLLM emits request data and Prometheus metrics while the benchmark app captures benchmark metadata.
-6. Collectors normalize request- and session-level data into the project database.
-7. Reports and dashboards compare sessions, variants, providers, models, and harnesses.
-
-## Repository layout
-
-```text
-.
-├── AGENTS.md
-├── README.md
-├── pyproject.toml
-├── Makefile
-├── docker-compose.yml
-├── .env.example
-├── configs/
-│   ├── litellm/
-│   ├── prometheus/
-│   ├── grafana/
-│   ├── providers/
-│   ├── harnesses/
-│   ├── variants/
-│   ├── experiments/
-│   └── task-cards/
-├── dashboards/
-├── docs/
-│   ├── architecture.md
-│   ├── benchmark-methodology.md
-│   ├── config-and-contracts.md
-│   ├── data-model-and-observability.md
-│   ├── implementation-plan.md
-│   ├── references.md
-│   └── security-and-operations.md
-├── skills/
-│   └── convert-tasks-to-linear/
-│       └── SKILL.md
-├── src/
-│   ├── benchmark_core/
-│   ├── cli/
-│   ├── collectors/
-│   ├── reporting/
-│   └── api/
-└── tests/
+# Benchmark Core
+
+A harness-agnostic benchmarking system for comparing providers, models, and harnesses through a local LiteLLM proxy.
+
+## Architecture
+
+- **LiteLLM as single inference gateway** - All benchmarks route through local proxy
+- **Session-scoped correlation** - Every session has unique correlation keys for traffic matching
+- **Canonical data model** - Normalized storage for cross-harness comparisons
+
+## Project Structure
+
+```
+src/
+├── benchmark_core/          # Core domain logic
+│   ├── models.py           # Canonical domain models
+│   ├── config.py           # Pydantic settings
+│   ├── db/
+│   │   ├── connection.py   # SQLAlchemy async engine
+│   │   └── models.py       # ORM models with FKs
+│   ├── repositories/       # Data access layer (9 repositories)
+│   └── services/           # Business logic layer
+├── collectors/             # Data ingestion
+│   ├── litellm_collector.py
+│   ├── normalizer.py
+│   ├── rollups.py
+│   └── prometheus_collector.py
+migrations/                 # Alembic migrations
+tests/                     # Unit and integration tests
+```
+
+## Canonical Entities
+
+- `provider` - Upstream inference provider definition
+- `harness_profile` - How a harness is configured to talk to the proxy
+- `variant` - Benchmarkable combination of provider/model/harness
+- `experiment` - Named comparison grouping
+- `task_card` - Benchmark task definition
+- `session` - Interactive benchmark execution
+- `request` - Normalized LLM call
+- `metric_rollup` - Derived latency/throughput metrics
+
+## Quick Start
+
+```bash
+# Install dependencies
+pip install -e ".[dev]"
+
+# Run migrations
+alembic upgrade head
+
+# Run tests
+pytest tests/ -v
 ```
 
-## Documentation map
-
-- `AGENTS.md`
-  - persistent project context for coding agents
-  - architectural invariants
-  - delivery and testing rules
-- `docs/architecture.md`
-  - system components
-  - data flow
-  - deployment boundaries
-- `docs/benchmark-methodology.md`
-  - how to run comparable interactive benchmark sessions
-  - metric definitions and confounder controls
-- `docs/config-and-contracts.md`
-  - config schemas
-  - session and CLI contracts
-  - normalization contracts
-- `docs/data-model-and-observability.md`
-  - canonical entities
-  - storage model
-  - derived metrics
-- `docs/security-and-operations.md`
-  - local security posture
-  - redaction, retention, and secrets
-  - operator safeguards
-- `docs/implementation-plan.md`
-  - parent issues and sub-issues
-  - Definition of Ready information
-  - acceptance criteria and test plans
-- `docs/references.md`
-  - external references that shaped the design
-- `skills/convert-tasks-to-linear/SKILL.md`
-  - reusable instructions for converting a markdown implementation plan into Linear parent issues and sub-issues
-
-## MVP success criteria
-
-The MVP is complete when a developer can:
-
-1. start LiteLLM, Postgres, Prometheus, and Grafana locally with one command
-2. validate provider, harness profile, variant, experiment, and task-card configs
-3. create a session for a specific benchmark variant
-4. receive a session-specific environment snippet for a chosen harness
-5. run the harness interactively against the proxy
-6. collect and normalize request- and session-level data into the benchmark database
-7. view live metrics in Grafana and historical comparisons in the benchmark app
-8. export structured comparison results for providers, models, harnesses, and harness configurations
+## Database Schema
+
+All tables use UUID primary keys with proper foreign key relationships:
+
+- `providers` - Inference providers
+- `harness_profiles` - Harness connection configs
+- `variants` - Provider + model + harness combinations
+- `experiments` - Named comparison groups
+- `task_cards` - Benchmark work definitions
+- `sessions` - Interactive execution records
+- `requests` - Normalized LLM calls
+- `metric_rollups` - Aggregated statistics
+- `artifacts` - Exported bundles
+
+## Collectors
+
+### LiteLLM Collector
+
+Ingests raw request records from LiteLLM:
+- Duplicate detection via `litellm_call_id`
+- Correlation key extraction from tags
+- Missing field diagnostics
+
+### Request Normalizer
+
+Maps raw requests to canonical format:
+- Session/variant joining
+- Canonical field validation
+- Unmapped row surfacing
+
+### Metric Rollups
+
+Computes aggregated statistics:
+- Request-level: latency, ttft, tokens/sec
+- Session-level: request_count, success_rate, median/p95 latency
+- Variant-level: session_count, session_success_rate
+- Experiment-level: variant comparison
+
+## Configuration
+
+See `docs/config-and-contracts.md` for configuration schema.
+
+## License
+
+Internal use only.
diff --git a/alembic.ini b/alembic.ini
new file mode 100644
index 0000000..0c699a5
--- /dev/null
+++ b/alembic.ini
@@ -0,0 +1,43 @@
+# A generic, single database configuration.
+
+[alembic]
+script_location = migrations
+prepend_sys_path = .
+version_path_separator = os
+sqlalchemy.url = postgresql+asyncpg://postgres:postgres@localhost:5432/benchmark
+
+[post_write_hooks]
+
+[loggers]
+keys = root,sqlalchemy,alembic
+
+[handlers]
+keys = console
+
+[formatters]
+keys = generic
+
+[logger_root]
+level = WARN
+handlers = console
+qualname =
+
+[logger_sqlalchemy]
+level = WARN
+handlers =
+qualname = sqlalchemy.engine
+
+[logger_alembic]
+level = INFO
+handlers =
+qualname = alembic
+
+[handler_console]
+class = StreamHandler
+args = (sys.stderr,)
+level = NOTSET
+formatter = generic
+
+[formatter_generic]
+format = %(levelname)-5.5s [%(name)s] %(message)s
+datefmt = %H:%M:%S
diff --git a/migrations/__pycache__/env.cpython-312.pyc b/migrations/__pycache__/env.cpython-312.pyc
new file mode 100644
index 0000000..74e059e
Binary files /dev/null and b/migrations/__pycache__/env.cpython-312.pyc differ
diff --git a/migrations/env.py b/migrations/env.py
new file mode 100644
index 0000000..4bdd86a
--- /dev/null
+++ b/migrations/env.py
@@ -0,0 +1,70 @@
+"""Alembic environment configuration for async migrations."""
+import asyncio
+from logging.config import fileConfig
+
+from alembic import context
+from sqlalchemy import pool
+from sqlalchemy.engine import Connection
+from sqlalchemy.ext.asyncio import async_engine_from_config
+
+from benchmark_core.db.connection import Base
+from benchmark_core.db.models import (  # noqa: F401 - imported for model registration
+    ArtifactModel,
+    ExperimentModel,
+    HarnessProfileModel,
+    MetricRollupModel,
+    ProviderModel,
+    RequestModel,
+    SessionModel,
+    TaskCardModel,
+    VariantModel,
+)
+
+config = context.config
+
+if config.config_file_name is not None:
+    fileConfig(config.config_file_name)
+
+target_metadata = Base.metadata
+
+
+def run_migrations_offline() -> None:
+    """Run migrations in 'offline' mode."""
+    url = config.get_main_option("sqlalchemy.url")
+    context.configure(
+        url=url,
+        target_metadata=target_metadata,
+        literal_binds=True,
+        dialect_opts={"paramstyle": "named"},
+    )
+    with context.begin_transaction():
+        context.run_migrations()
+
+
+def do_run_migrations(connection: Connection) -> None:
+    context.configure(connection=connection, target_metadata=target_metadata)
+    with context.begin_transaction():
+        context.run_migrations()
+
+
+async def run_async_migrations() -> None:
+    """Run migrations in async mode."""
+    connectable = async_engine_from_config(
+        config.get_section(config.config_ini_section, {}),
+        prefix="sqlalchemy.",
+        poolclass=pool.NullPool,
+    )
+    async with connectable.connect() as connection:
+        await connection.run_sync(do_run_migrations)
+    await connectable.dispose()
+
+
+def run_migrations_online() -> None:
+    """Run migrations in 'online' mode."""
+    asyncio.run(run_async_migrations())
+
+
+if context.is_offline_mode():
+    run_migrations_offline()
+else:
+    run_migrations_online()
diff --git a/migrations/script.py.mako b/migrations/script.py.mako
new file mode 100644
index 0000000..fbc4b07
--- /dev/null
+++ b/migrations/script.py.mako
@@ -0,0 +1,26 @@
+"""${message}
+
+Revision ID: ${up_revision}
+Revises: ${down_revision | comma,n}
+Create Date: ${create_date}
+
+"""
+from typing import Sequence, Union
+
+from alembic import op
+import sqlalchemy as sa
+${imports if imports else ""}
+
+# revision identifiers, used by Alembic.
+revision: str = ${repr(up_revision)}
+down_revision: Union[str, None] = ${repr(down_revision)}
+branch_labels: Union[str, Sequence[str], None] = ${repr(branch_labels)}
+depends_on: Union[str, Sequence[str], None] = ${repr(depends_on)}
+
+
+def upgrade() -> None:
+    ${upgrades if upgrades else "pass"}
+
+
+def downgrade() -> None:
+    ${downgrades if downgrades else "pass"}
diff --git a/migrations/versions/001_initial_schema.py b/migrations/versions/001_initial_schema.py
new file mode 100644
index 0000000..5e7bfb1
--- /dev/null
+++ b/migrations/versions/001_initial_schema.py
@@ -0,0 +1,182 @@
+"""Initial schema for benchmark database.
+
+Revision ID: 001_initial
+Revises: 
+Create Date: 2026-03-21
+
+"""
+from typing import Sequence, Union
+
+from alembic import op
+import sqlalchemy as sa
+from sqlalchemy.dialects import postgresql
+
+# revision identifiers, used by Alembic.
+revision: str = '001_initial'
+down_revision: Union[str, None] = None
+branch_labels: Union[str, Sequence[str], None] = None
+depends_on: Union[str, Sequence[str], None] = None
+
+
+def upgrade() -> None:
+    # Providers table
+    op.create_table(
+        'providers',
+        sa.Column('provider_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('name', sa.String(255), nullable=False, unique=True),
+        sa.Column('route_name', sa.String(255), nullable=False),
+        sa.Column('protocol_surface', sa.String(100), nullable=False),
+        sa.Column('upstream_base_url', sa.String(500)),
+        sa.Column('created_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+    )
+    
+    # Harness profiles table
+    op.create_table(
+        'harness_profiles',
+        sa.Column('harness_profile_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('name', sa.String(255), nullable=False, unique=True),
+        sa.Column('protocol_surface', sa.String(100), nullable=False),
+        sa.Column('base_url_env', sa.String(100), nullable=False),
+        sa.Column('api_key_env', sa.String(100), nullable=False),
+        sa.Column('model_env', sa.String(100), nullable=False),
+        sa.Column('created_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+    )
+    
+    # Experiments table
+    op.create_table(
+        'experiments',
+        sa.Column('experiment_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('name', sa.String(255), nullable=False, unique=True),
+        sa.Column('description', sa.Text),
+        sa.Column('created_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+    )
+    
+    # Task cards table
+    op.create_table(
+        'task_cards',
+        sa.Column('task_card_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('name', sa.String(255), nullable=False, unique=True),
+        sa.Column('repo_path', sa.String(500)),
+        sa.Column('goal', sa.Text),
+        sa.Column('stop_condition', sa.Text),
+        sa.Column('session_timebox_minutes', sa.Integer),
+        sa.Column('created_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+    )
+    
+    # Variants table
+    op.create_table(
+        'variants',
+        sa.Column('variant_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('name', sa.String(255), nullable=False, unique=True),
+        sa.Column('provider_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('providers.provider_id'), nullable=False),
+        sa.Column('model_alias', sa.String(255), nullable=False),
+        sa.Column('harness_profile_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('harness_profiles.harness_profile_id'), nullable=False),
+        sa.Column('config_fingerprint', sa.String(64)),
+        sa.Column('created_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+    )
+    
+    # Sessions table
+    op.create_table(
+        'sessions',
+        sa.Column('session_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('experiment_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('experiments.experiment_id'), nullable=False),
+        sa.Column('variant_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('variants.variant_id'), nullable=False),
+        sa.Column('task_card_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('task_cards.task_card_id'), nullable=False),
+        sa.Column('harness_profile_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('harness_profiles.harness_profile_id'), nullable=False),
+        sa.Column('status', sa.Enum('PENDING', 'ACTIVE', 'COMPLETED', 'ABORTED', 'INVALID', name='session_status'), nullable=False, server_default='PENDING'),
+        sa.Column('started_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+        sa.Column('ended_at', sa.DateTime(timezone=True)),
+        sa.Column('operator_label', sa.String(255)),
+        sa.Column('repo_root', sa.String(500)),
+        sa.Column('git_branch', sa.String(255)),
+        sa.Column('git_commit_sha', sa.String(40)),
+        sa.Column('git_dirty', sa.Boolean),
+        sa.Column('proxy_key_alias', sa.String(255), unique=True),
+        sa.Column('proxy_virtual_key_id', sa.String(255)),
+    )
+    op.create_index('ix_sessions_experiment_variant', 'sessions', ['experiment_id', 'variant_id'])
+    op.create_index('ix_sessions_status', 'sessions', ['status'])
+    
+    # Requests table
+    op.create_table(
+        'requests',
+        sa.Column('request_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('session_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('sessions.session_id')),
+        sa.Column('experiment_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('experiments.experiment_id')),
+        sa.Column('variant_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('variants.variant_id')),
+        sa.Column('provider_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('providers.provider_id')),
+        sa.Column('provider_route', sa.String(255)),
+        sa.Column('model', sa.String(255)),
+        sa.Column('harness_profile_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('harness_profiles.harness_profile_id')),
+        sa.Column('litellm_call_id', sa.String(255), unique=True),
+        sa.Column('provider_request_id', sa.String(255)),
+        sa.Column('started_at', sa.DateTime(timezone=True)),
+        sa.Column('finished_at', sa.DateTime(timezone=True)),
+        sa.Column('latency_ms', sa.Float),
+        sa.Column('ttft_ms', sa.Float),
+        sa.Column('proxy_overhead_ms', sa.Float),
+        sa.Column('provider_latency_ms', sa.Float),
+        sa.Column('input_tokens', sa.Integer),
+        sa.Column('output_tokens', sa.Integer),
+        sa.Column('cached_input_tokens', sa.Integer),
+        sa.Column('cache_write_tokens', sa.Integer),
+        sa.Column('status', sa.Enum('SUCCESS', 'ERROR', 'TIMEOUT', 'CANCELLED', name='request_status'), nullable=False, server_default='SUCCESS'),
+        sa.Column('error_code', sa.String(100)),
+    )
+    op.create_index(op.f('ix_requests_session_id'), 'requests', ['session_id'])
+    op.create_index(op.f('ix_requests_experiment_id'), 'requests', ['experiment_id'])
+    op.create_index(op.f('ix_requests_variant_id'), 'requests', ['variant_id'])
+    op.create_index(op.f('ix_requests_provider_id'), 'requests', ['provider_id'])
+    op.create_index('ix_requests_session_started', 'requests', ['session_id', 'started_at'])
+    op.create_index('ix_requests_started_at', 'requests', ['started_at'])
+    
+    # Metric rollups table
+    op.create_table(
+        'metric_rollups',
+        sa.Column('rollup_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('scope_type', sa.Enum('REQUEST', 'SESSION', 'VARIANT', 'EXPERIMENT', name='rollup_scope_type'), nullable=False),
+        sa.Column('scope_id', postgresql.UUID(as_uuid=False), nullable=False),
+        sa.Column('metric_name', sa.String(100), nullable=False),
+        sa.Column('metric_value', sa.Float, nullable=False),
+        sa.Column('computed_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+        sa.Column('window_start', sa.DateTime(timezone=True)),
+        sa.Column('window_end', sa.DateTime(timezone=True)),
+        sa.UniqueConstraint('scope_type', 'scope_id', 'metric_name', name='uq_rollup_scope_metric'),
+    )
+    op.create_index('ix_rollups_scope', 'metric_rollups', ['scope_type', 'scope_id'])
+    
+    # Artifacts table
+    op.create_table(
+        'artifacts',
+        sa.Column('artifact_id', postgresql.UUID(as_uuid=False), primary_key=True),
+        sa.Column('session_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('sessions.session_id')),
+        sa.Column('experiment_id', postgresql.UUID(as_uuid=False), sa.ForeignKey('experiments.experiment_id')),
+        sa.Column('artifact_type', sa.String(100), nullable=False),
+        sa.Column('storage_path', sa.String(500), nullable=False),
+        sa.Column('created_at', sa.DateTime(timezone=True), nullable=False, server_default=sa.text('NOW()')),
+    )
+
+
+def downgrade() -> None:
+    op.drop_table('artifacts')
+    op.drop_table('metric_rollups')
+    op.drop_index('ix_requests_started_at', table_name='requests')
+    op.drop_index('ix_requests_session_started', table_name='requests')
+    op.drop_index(op.f('ix_requests_provider_id'), table_name='requests')
+    op.drop_index(op.f('ix_requests_variant_id'), table_name='requests')
+    op.drop_index(op.f('ix_requests_experiment_id'), table_name='requests')
+    op.drop_index(op.f('ix_requests_session_id'), table_name='requests')
+    op.drop_table('requests')
+    op.drop_index('ix_sessions_status', table_name='sessions')
+    op.drop_index('ix_sessions_experiment_variant', table_name='sessions')
+    op.drop_table('sessions')
+    op.drop_table('variants')
+    op.drop_table('task_cards')
+    op.drop_table('experiments')
+    op.drop_table('harness_profiles')
+    op.drop_table('providers')
+    
+    # Drop enums
+    op.execute('DROP TYPE IF EXISTS request_status')
+    op.execute('DROP TYPE IF EXISTS session_status')
+    op.execute('DROP TYPE IF EXISTS rollup_scope_type')
diff --git a/migrations/versions/__pycache__/001_initial_schema.cpython-312.pyc b/migrations/versions/__pycache__/001_initial_schema.cpython-312.pyc
new file mode 100644
index 0000000..b65c6f0
Binary files /dev/null and b/migrations/versions/__pycache__/001_initial_schema.cpython-312.pyc differ
diff --git a/pyproject.toml b/pyproject.toml
new file mode 100644
index 0000000..7b44c39
--- /dev/null
+++ b/pyproject.toml
@@ -0,0 +1,58 @@
+[project]
+name = "benchmark-core"
+version = "0.1.0"
+description = "LiteLLM benchmarking system for comparing providers, models, and harnesses"
+readme = "README.md"
+requires-python = ">=3.11"
+dependencies = [
+    "pydantic>=2.0.0",
+    "pydantic-settings>=2.0.0",
+    "asyncpg>=0.29.0",
+    "sqlalchemy[asyncio]>=2.0.0",
+    "alembic>=1.13.0",
+    "click>=8.0.0",
+    "rich>=13.0.0",
+    "httpx>=0.27.0",
+    "prometheus-client>=0.20.0",
+    "python-dotenv>=1.0.0",
+    "pyyaml>=6.0.0",
+    "structlog>=24.0.0",
+    "numpy>=1.26.0",
+]
+
+[project.optional-dependencies]
+dev = [
+    "pytest>=8.0.0",
+    "pytest-asyncio>=0.23.0",
+    "pytest-cov>=4.0.0",
+    "ruff>=0.3.0",
+    "mypy>=1.8.0",
+    "testcontainers>=3.7.0",
+    "aiosqlite>=0.19.0",
+]
+
+[project.scripts]
+bench = "cli.main:cli"
+
+[build-system]
+requires = ["hatchling"]
+build-backend = "hatchling.build"
+
+[tool.hatch.build.targets.wheel]
+packages = ["src"]
+
+[tool.pytest.ini_options]
+asyncio_mode = "auto"
+testpaths = ["tests"]
+pythonpath = ["src"]
+
+[tool.ruff]
+line-length = 100
+target-version = "py311"
+
+[tool.ruff.lint]
+select = ["E", "F", "I", "UP", "B", "SIM"]
+
+[tool.mypy]
+python_version = "3.11"
+strict = true
diff --git a/scripts/unblock-commit.sh b/scripts/unblock-commit.sh
new file mode 100755
index 0000000..406d666
--- /dev/null
+++ b/scripts/unblock-commit.sh
@@ -0,0 +1,58 @@
+#!/bin/bash
+# Helper script for COE-227 commit workflow
+# Run this after sandbox restrictions are lifted
+
+set -e
+
+echo "=== COE-227: Canonical Data Store and Collection Pipeline ==="
+echo ""
+
+# Check we're in the right directory
+if [ ! -f "pyproject.toml" ]; then
+    echo "ERROR: Run this from the COE-227 repository root"
+    exit 1
+fi
+
+# Create feature branch
+BRANCH="leonardogonzalez/coe-227-canonical-data-store-and-collection-pipeline"
+echo "Creating branch: $BRANCH"
+git checkout -b "$BRANCH" 2>/dev/null || git checkout "$BRANCH"
+
+# Stage all changes
+echo "Staging changes..."
+git add -A
+
+# Show what will be committed
+echo ""
+echo "Files to be committed:"
+git status --short
+
+# Commit
+echo ""
+echo "Committing..."
+git commit -m "feat: implement canonical data store and collection pipeline
+
+- Database schema with 9 tables (providers, harness_profiles, variants,
+  experiments, task_cards, sessions, requests, metric_rollups, artifacts)
+- Repository layer with FK integrity and SQLAlchemy models
+- SessionService for create/finalize with duplicate rejection
+- LiteLLM collector with correlation key extraction and diagnostics
+- RequestNormalizer with session/variant joins and unmapped row surfacing
+- MetricRollupService computing median/p95 using numpy.percentile
+- PrometheusCollector for operational metrics
+- Unit and integration tests
+
+Refs: COE-227"
+
+echo ""
+echo "Pushing to origin..."
+git push -u origin "$BRANCH"
+
+echo ""
+echo "=== Commit complete ==="
+echo "Next steps:"
+echo "1. pip install -e '.[dev]'"
+echo "2. pytest tests/ -v"
+echo "3. gh pr create --title 'COE-227: Canonical Data Store and Collection Pipeline' \\"
+echo "     --body 'Implements database schema, repositories, collectors, normalization, and rollups.' \\"
+echo "     --label symphony"
diff --git a/src/__init__.py b/src/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/src/__pycache__/__init__.cpython-312.pyc b/src/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..e207d15
Binary files /dev/null and b/src/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/api/__init__.py b/src/api/__init__.py
new file mode 100644
index 0000000..107a7f9
--- /dev/null
+++ b/src/api/__init__.py
@@ -0,0 +1 @@
+"""HTTP API for benchmark queries."""
diff --git a/src/api/__pycache__/__init__.cpython-312.pyc b/src/api/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..382129f
Binary files /dev/null and b/src/api/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/benchmark_core/__init__.py b/src/benchmark_core/__init__.py
new file mode 100644
index 0000000..8a67468
--- /dev/null
+++ b/src/benchmark_core/__init__.py
@@ -0,0 +1 @@
+"""Benchmark core module for canonical data store and collection pipeline."""
diff --git a/src/benchmark_core/__pycache__/__init__.cpython-312.pyc b/src/benchmark_core/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..0da6f5d
Binary files /dev/null and b/src/benchmark_core/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/benchmark_core/__pycache__/config.cpython-312.pyc b/src/benchmark_core/__pycache__/config.cpython-312.pyc
new file mode 100644
index 0000000..b234d3c
Binary files /dev/null and b/src/benchmark_core/__pycache__/config.cpython-312.pyc differ
diff --git a/src/benchmark_core/__pycache__/models.cpython-312.pyc b/src/benchmark_core/__pycache__/models.cpython-312.pyc
new file mode 100644
index 0000000..793a943
Binary files /dev/null and b/src/benchmark_core/__pycache__/models.cpython-312.pyc differ
diff --git a/src/benchmark_core/config.py b/src/benchmark_core/config.py
new file mode 100644
index 0000000..345cd20
--- /dev/null
+++ b/src/benchmark_core/config.py
@@ -0,0 +1,34 @@
+"""Configuration management using pydantic-settings."""
+from functools import lru_cache
+from typing import Optional
+
+from pydantic_settings import BaseSettings, SettingsConfigDict
+
+
+class Settings(BaseSettings):
+    """Application settings loaded from environment."""
+
+    model_config = SettingsConfigDict(env_file=".env", env_file_encoding="utf-8")
+
+    # Database
+    database_url: str = "postgresql+asyncpg://postgres:postgres@localhost:5432/benchmark"
+    database_echo: bool = False
+    database_pool_size: int = 5
+    database_max_overflow: int = 10
+
+    # LiteLLM
+    litellm_base_url: str = "http://localhost:4000"
+    litellm_admin_key: Optional[str] = None
+
+    # Prometheus
+    prometheus_url: str = "http://localhost:9090"
+
+    # Collection settings
+    collection_batch_size: int = 1000
+    collection_window_seconds: int = 300
+
+
+@lru_cache
+def get_settings() -> Settings:
+    """Return cached settings instance."""
+    return Settings()
diff --git a/src/benchmark_core/db/__init__.py b/src/benchmark_core/db/__init__.py
new file mode 100644
index 0000000..0d94c4b
--- /dev/null
+++ b/src/benchmark_core/db/__init__.py
@@ -0,0 +1 @@
+"""Database layer for benchmark storage."""
diff --git a/src/benchmark_core/db/__pycache__/__init__.cpython-312.pyc b/src/benchmark_core/db/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..95db4eb
Binary files /dev/null and b/src/benchmark_core/db/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/benchmark_core/db/__pycache__/connection.cpython-312.pyc b/src/benchmark_core/db/__pycache__/connection.cpython-312.pyc
new file mode 100644
index 0000000..171dc10
Binary files /dev/null and b/src/benchmark_core/db/__pycache__/connection.cpython-312.pyc differ
diff --git a/src/benchmark_core/db/__pycache__/models.cpython-312.pyc b/src/benchmark_core/db/__pycache__/models.cpython-312.pyc
new file mode 100644
index 0000000..95a89b7
Binary files /dev/null and b/src/benchmark_core/db/__pycache__/models.cpython-312.pyc differ
diff --git a/src/benchmark_core/db/connection.py b/src/benchmark_core/db/connection.py
new file mode 100644
index 0000000..6a8fdd8
--- /dev/null
+++ b/src/benchmark_core/db/connection.py
@@ -0,0 +1,45 @@
+"""Database connection management."""
+from typing import AsyncGenerator
+
+from sqlalchemy.ext.asyncio import AsyncSession, async_sessionmaker, create_async_engine
+from sqlalchemy.orm import DeclarativeBase
+
+
+class Base(DeclarativeBase):
+    """Base class for all database models."""
+    pass
+
+
+engine = None
+async_session_factory = None
+
+
+def init_db(database_url: str, echo: bool = False, pool_size: int = 5, max_overflow: int = 10) -> None:
+    """Initialize database engine and session factory."""
+    global engine, async_session_factory
+    engine = create_async_engine(
+        database_url,
+        echo=echo,
+        pool_size=pool_size,
+        max_overflow=max_overflow,
+    )
+    async_session_factory = async_sessionmaker(
+        engine,
+        class_=AsyncSession,
+        expire_on_commit=False,
+    )
+
+
+async def get_session() -> AsyncGenerator[AsyncSession, None]:
+    """Yield database session."""
+    if async_session_factory is None:
+        raise RuntimeError("Database not initialized. Call init_db() first.")
+    async with async_session_factory() as session:
+        yield session
+
+
+async def close_db() -> None:
+    """Close database connections."""
+    global engine
+    if engine:
+        await engine.dispose()
diff --git a/src/benchmark_core/db/models.py b/src/benchmark_core/db/models.py
new file mode 100644
index 0000000..a8f6832
--- /dev/null
+++ b/src/benchmark_core/db/models.py
@@ -0,0 +1,190 @@
+"""SQLAlchemy ORM models for benchmark database."""
+from datetime import datetime
+from typing import Optional
+from uuid import uuid4
+
+from sqlalchemy import (
+    Boolean,
+    DateTime,
+    Enum,
+    Float,
+    ForeignKey,
+    Index,
+    Integer,
+    String,
+    Text,
+    UniqueConstraint,
+)
+from sqlalchemy.dialects.postgresql import UUID
+from sqlalchemy.orm import Mapped, mapped_column, relationship
+
+from benchmark_core.db.connection import Base
+from benchmark_core.models import RequestStatus, RollupScopeType, SessionStatus
+
+
+class ProviderModel(Base):
+    """ORM model for providers table."""
+    __tablename__ = "providers"
+
+    provider_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    name: Mapped[str] = mapped_column(String(255), nullable=False, unique=True)
+    route_name: Mapped[str] = mapped_column(String(255), nullable=False)
+    protocol_surface: Mapped[str] = mapped_column(String(100), nullable=False)
+    upstream_base_url: Mapped[Optional[str]] = mapped_column(String(500))
+    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+
+
+class HarnessProfileModel(Base):
+    """ORM model for harness_profiles table."""
+    __tablename__ = "harness_profiles"
+
+    harness_profile_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    name: Mapped[str] = mapped_column(String(255), nullable=False, unique=True)
+    protocol_surface: Mapped[str] = mapped_column(String(100), nullable=False)
+    base_url_env: Mapped[str] = mapped_column(String(100), nullable=False)
+    api_key_env: Mapped[str] = mapped_column(String(100), nullable=False)
+    model_env: Mapped[str] = mapped_column(String(100), nullable=False)
+    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+
+
+class ExperimentModel(Base):
+    """ORM model for experiments table."""
+    __tablename__ = "experiments"
+
+    experiment_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    name: Mapped[str] = mapped_column(String(255), nullable=False, unique=True)
+    description: Mapped[Optional[str]] = mapped_column(Text)
+    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+
+
+class TaskCardModel(Base):
+    """ORM model for task_cards table."""
+    __tablename__ = "task_cards"
+
+    task_card_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    name: Mapped[str] = mapped_column(String(255), nullable=False, unique=True)
+    repo_path: Mapped[Optional[str]] = mapped_column(String(500))
+    goal: Mapped[Optional[str]] = mapped_column(Text)
+    stop_condition: Mapped[Optional[str]] = mapped_column(Text)
+    session_timebox_minutes: Mapped[Optional[int]] = mapped_column(Integer)
+    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+
+
+class VariantModel(Base):
+    """ORM model for variants table."""
+    __tablename__ = "variants"
+
+    variant_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    name: Mapped[str] = mapped_column(String(255), nullable=False, unique=True)
+    provider_id: Mapped[str] = mapped_column(UUID(as_uuid=False), ForeignKey("providers.provider_id"), nullable=False)
+    model_alias: Mapped[str] = mapped_column(String(255), nullable=False)
+    harness_profile_id: Mapped[str] = mapped_column(UUID(as_uuid=False), ForeignKey("harness_profiles.harness_profile_id"), nullable=False)
+    config_fingerprint: Mapped[Optional[str]] = mapped_column(String(64))
+    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+
+    provider = relationship("ProviderModel", backref="variants")
+    harness_profile = relationship("HarnessProfileModel", backref="variants")
+
+
+class SessionModel(Base):
+    """ORM model for sessions table."""
+    __tablename__ = "sessions"
+
+    session_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    experiment_id: Mapped[str] = mapped_column(UUID(as_uuid=False), ForeignKey("experiments.experiment_id"), nullable=False)
+    variant_id: Mapped[str] = mapped_column(UUID(as_uuid=False), ForeignKey("variants.variant_id"), nullable=False)
+    task_card_id: Mapped[str] = mapped_column(UUID(as_uuid=False), ForeignKey("task_cards.task_card_id"), nullable=False)
+    harness_profile_id: Mapped[str] = mapped_column(UUID(as_uuid=False), ForeignKey("harness_profiles.harness_profile_id"), nullable=False)
+    status: Mapped[SessionStatus] = mapped_column(Enum(SessionStatus), nullable=False, default=SessionStatus.PENDING)
+    started_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+    ended_at: Mapped[Optional[datetime]] = mapped_column(DateTime(timezone=True))
+    operator_label: Mapped[Optional[str]] = mapped_column(String(255))
+    repo_root: Mapped[Optional[str]] = mapped_column(String(500))
+    git_branch: Mapped[Optional[str]] = mapped_column(String(255))
+    git_commit_sha: Mapped[Optional[str]] = mapped_column(String(40))
+    git_dirty: Mapped[Optional[bool]] = mapped_column(Boolean)
+    proxy_key_alias: Mapped[Optional[str]] = mapped_column(String(255), unique=True)
+    proxy_virtual_key_id: Mapped[Optional[str]] = mapped_column(String(255))
+
+    experiment = relationship("ExperimentModel", backref="sessions")
+    variant = relationship("VariantModel", backref="sessions")
+    task_card = relationship("TaskCardModel", backref="sessions")
+    harness_profile = relationship("HarnessProfileModel", backref="sessions")
+
+    __table_args__ = (
+        Index("ix_sessions_experiment_variant", "experiment_id", "variant_id"),
+        Index("ix_sessions_status", "status"),
+    )
+
+
+class RequestModel(Base):
+    """ORM model for requests table."""
+    __tablename__ = "requests"
+
+    request_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    session_id: Mapped[Optional[str]] = mapped_column(UUID(as_uuid=False), ForeignKey("sessions.session_id"), index=True)
+    experiment_id: Mapped[Optional[str]] = mapped_column(UUID(as_uuid=False), ForeignKey("experiments.experiment_id"), index=True)
+    variant_id: Mapped[Optional[str]] = mapped_column(UUID(as_uuid=False), ForeignKey("variants.variant_id"), index=True)
+    provider_id: Mapped[Optional[str]] = mapped_column(UUID(as_uuid=False), ForeignKey("providers.provider_id"), index=True)
+    provider_route: Mapped[Optional[str]] = mapped_column(String(255))
+    model: Mapped[Optional[str]] = mapped_column(String(255))
+    harness_profile_id: Mapped[Optional[str]] = mapped_column(UUID(as_uuid=False), ForeignKey("harness_profiles.harness_profile_id"))
+    litellm_call_id: Mapped[Optional[str]] = mapped_column(String(255), unique=True)
+    provider_request_id: Mapped[Optional[str]] = mapped_column(String(255))
+    started_at: Mapped[Optional[datetime]] = mapped_column(DateTime(timezone=True))
+    finished_at: Mapped[Optional[datetime]] = mapped_column(DateTime(timezone=True))
+    latency_ms: Mapped[Optional[float]] = mapped_column(Float)
+    ttft_ms: Mapped[Optional[float]] = mapped_column(Float)
+    proxy_overhead_ms: Mapped[Optional[float]] = mapped_column(Float)
+    provider_latency_ms: Mapped[Optional[float]] = mapped_column(Float)
+    input_tokens: Mapped[Optional[int]] = mapped_column(Integer)
+    output_tokens: Mapped[Optional[int]] = mapped_column(Integer)
+    cached_input_tokens: Mapped[Optional[int]] = mapped_column(Integer)
+    cache_write_tokens: Mapped[Optional[int]] = mapped_column(Integer)
+    status: Mapped[RequestStatus] = mapped_column(Enum(RequestStatus), nullable=False, default=RequestStatus.SUCCESS)
+    error_code: Mapped[Optional[str]] = mapped_column(String(100))
+
+    session = relationship("SessionModel", backref="requests")
+    experiment = relationship("ExperimentModel", backref="requests")
+    variant = relationship("VariantModel", backref="requests")
+    provider = relationship("ProviderModel", backref="requests")
+    harness_profile = relationship("HarnessProfileModel", backref="requests")
+
+    __table_args__ = (
+        Index("ix_requests_session_started", "session_id", "started_at"),
+        Index("ix_requests_started_at", "started_at"),
+    )
+
+
+class MetricRollupModel(Base):
+    """ORM model for metric_rollups table."""
+    __tablename__ = "metric_rollups"
+
+    rollup_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    scope_type: Mapped[RollupScopeType] = mapped_column(Enum(RollupScopeType), nullable=False)
+    scope_id: Mapped[str] = mapped_column(UUID(as_uuid=False), nullable=False)
+    metric_name: Mapped[str] = mapped_column(String(100), nullable=False)
+    metric_value: Mapped[float] = mapped_column(Float, nullable=False)
+    computed_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+    window_start: Mapped[Optional[datetime]] = mapped_column(DateTime(timezone=True))
+    window_end: Mapped[Optional[datetime]] = mapped_column(DateTime(timezone=True))
+
+    __table_args__ = (
+        UniqueConstraint("scope_type", "scope_id", "metric_name", name="uq_rollup_scope_metric"),
+        Index("ix_rollups_scope", "scope_type", "scope_id"),
+    )
+
+
+class ArtifactModel(Base):
+    """ORM model for artifacts table."""
+    __tablename__ = "artifacts"
+
+    artifact_id: Mapped[str] = mapped_column(UUID(as_uuid=False), primary_key=True, default=lambda: str(uuid4()))
+    session_id: Mapped[Optional[str]] = mapped_column(UUID(as_uuid=False), ForeignKey("sessions.session_id"))
+    experiment_id: Mapped[Optional[str]] = mapped_column(UUID(as_uuid=False), ForeignKey("experiments.experiment_id"))
+    artifact_type: Mapped[str] = mapped_column(String(100), nullable=False)
+    storage_path: Mapped[str] = mapped_column(String(500), nullable=False)
+    created_at: Mapped[datetime] = mapped_column(DateTime(timezone=True), nullable=False, default=datetime.utcnow)
+
+    session = relationship("SessionModel", backref="artifacts")
+    experiment = relationship("ExperimentModel", backref="artifacts")
diff --git a/src/benchmark_core/models.py b/src/benchmark_core/models.py
new file mode 100644
index 0000000..16985e9
--- /dev/null
+++ b/src/benchmark_core/models.py
@@ -0,0 +1,153 @@
+"""Canonical domain models for benchmark entities.
+
+Based on docs/data-model-and-observability.md schema.
+"""
+from datetime import datetime
+from enum import Enum
+from typing import Optional
+from uuid import UUID, uuid4
+
+from pydantic import BaseModel, Field
+
+
+class SessionStatus(str, Enum):
+    """Session lifecycle status."""
+    PENDING = "pending"
+    ACTIVE = "active"
+    COMPLETED = "completed"
+    ABORTED = "aborted"
+    INVALID = "invalid"
+
+
+class RequestStatus(str, Enum):
+    """Request completion status."""
+    SUCCESS = "success"
+    ERROR = "error"
+    TIMEOUT = "timeout"
+    CANCELLED = "cancelled"
+
+
+class RollupScopeType(str, Enum):
+    """Rollup aggregation scope."""
+    REQUEST = "request"
+    SESSION = "session"
+    VARIANT = "variant"
+    EXPERIMENT = "experiment"
+
+
+class Provider(BaseModel):
+    """Upstream inference provider definition."""
+    provider_id: UUID = Field(default_factory=uuid4)
+    name: str
+    route_name: str
+    protocol_surface: str
+    upstream_base_url: Optional[str] = None
+    created_at: datetime = Field(default_factory=datetime.utcnow)
+
+
+class HarnessProfile(BaseModel):
+    """Harness connection profile."""
+    harness_profile_id: UUID = Field(default_factory=uuid4)
+    name: str
+    protocol_surface: str
+    base_url_env: str
+    api_key_env: str
+    model_env: str
+    created_at: datetime = Field(default_factory=datetime.utcnow)
+
+
+class Variant(BaseModel):
+    """Benchmarkable configuration variant."""
+    variant_id: UUID = Field(default_factory=uuid4)
+    name: str
+    provider_id: UUID
+    model_alias: str
+    harness_profile_id: UUID
+    config_fingerprint: Optional[str] = None
+    created_at: datetime = Field(default_factory=datetime.utcnow)
+
+
+class Experiment(BaseModel):
+    """Named comparison grouping."""
+    experiment_id: UUID = Field(default_factory=uuid4)
+    name: str
+    description: Optional[str] = None
+    created_at: datetime = Field(default_factory=datetime.utcnow)
+
+
+class TaskCard(BaseModel):
+    """Benchmark task definition."""
+    task_card_id: UUID = Field(default_factory=uuid4)
+    name: str
+    repo_path: Optional[str] = None
+    goal: Optional[str] = None
+    stop_condition: Optional[str] = None
+    session_timebox_minutes: Optional[int] = None
+    created_at: datetime = Field(default_factory=datetime.utcnow)
+
+
+class Session(BaseModel):
+    """Interactive benchmark execution."""
+    session_id: UUID = Field(default_factory=uuid4)
+    experiment_id: UUID
+    variant_id: UUID
+    task_card_id: UUID
+    harness_profile_id: UUID
+    status: SessionStatus = SessionStatus.PENDING
+    started_at: datetime = Field(default_factory=datetime.utcnow)
+    ended_at: Optional[datetime] = None
+    operator_label: Optional[str] = None
+    repo_root: Optional[str] = None
+    git_branch: Optional[str] = None
+    git_commit_sha: Optional[str] = None
+    git_dirty: Optional[bool] = None
+    proxy_key_alias: Optional[str] = None
+    proxy_virtual_key_id: Optional[str] = None
+
+
+class Request(BaseModel):
+    """Normalized LLM call."""
+    request_id: UUID = Field(default_factory=uuid4)
+    session_id: Optional[UUID] = None
+    experiment_id: Optional[UUID] = None
+    variant_id: Optional[UUID] = None
+    provider_id: Optional[UUID] = None
+    provider_route: Optional[str] = None
+    model: Optional[str] = None
+    harness_profile_id: Optional[UUID] = None
+    litellm_call_id: Optional[str] = None
+    provider_request_id: Optional[str] = None
+    started_at: Optional[datetime] = None
+    finished_at: Optional[datetime] = None
+    latency_ms: Optional[float] = None
+    ttft_ms: Optional[float] = None
+    proxy_overhead_ms: Optional[float] = None
+    provider_latency_ms: Optional[float] = None
+    input_tokens: Optional[int] = None
+    output_tokens: Optional[int] = None
+    cached_input_tokens: Optional[int] = None
+    cache_write_tokens: Optional[int] = None
+    status: RequestStatus = RequestStatus.SUCCESS
+    error_code: Optional[str] = None
+
+
+class MetricRollup(BaseModel):
+    """Derived metric summary."""
+    rollup_id: UUID = Field(default_factory=uuid4)
+    scope_type: RollupScopeType
+    scope_id: UUID
+    metric_name: str
+    metric_value: float
+    computed_at: datetime = Field(default_factory=datetime.utcnow)
+    window_start: Optional[datetime] = None
+    window_end: Optional[datetime] = None
+
+
+class Artifact(BaseModel):
+    """Exported report or bundle."""
+    artifact_id: UUID = Field(default_factory=uuid4)
+    session_id: Optional[UUID] = None
+    experiment_id: Optional[UUID] = None
+    artifact_type: str
+    storage_path: str
+    created_at: datetime = Field(default_factory=datetime.utcnow)
diff --git a/src/benchmark_core/repositories/__init__.py b/src/benchmark_core/repositories/__init__.py
new file mode 100644
index 0000000..5a35edc
--- /dev/null
+++ b/src/benchmark_core/repositories/__init__.py
@@ -0,0 +1 @@
+"""Repository layer for canonical entities."""
diff --git a/src/benchmark_core/repositories/__pycache__/__init__.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..cb30cc0
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/base.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/base.cpython-312.pyc
new file mode 100644
index 0000000..eb5e3c6
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/base.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/experiment_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/experiment_repository.cpython-312.pyc
new file mode 100644
index 0000000..19d133f
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/experiment_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/harness_profile_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/harness_profile_repository.cpython-312.pyc
new file mode 100644
index 0000000..c60c6be
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/harness_profile_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/metric_rollup_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/metric_rollup_repository.cpython-312.pyc
new file mode 100644
index 0000000..b2bfc9a
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/metric_rollup_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/provider_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/provider_repository.cpython-312.pyc
new file mode 100644
index 0000000..04a96f3
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/provider_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/request_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/request_repository.cpython-312.pyc
new file mode 100644
index 0000000..da61022
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/request_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/session_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/session_repository.cpython-312.pyc
new file mode 100644
index 0000000..98777a6
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/session_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/task_card_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/task_card_repository.cpython-312.pyc
new file mode 100644
index 0000000..9e6714c
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/task_card_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/__pycache__/variant_repository.cpython-312.pyc b/src/benchmark_core/repositories/__pycache__/variant_repository.cpython-312.pyc
new file mode 100644
index 0000000..7ba2d4e
Binary files /dev/null and b/src/benchmark_core/repositories/__pycache__/variant_repository.cpython-312.pyc differ
diff --git a/src/benchmark_core/repositories/base.py b/src/benchmark_core/repositories/base.py
new file mode 100644
index 0000000..4e9d548
--- /dev/null
+++ b/src/benchmark_core/repositories/base.py
@@ -0,0 +1,50 @@
+"""Base repository with common database operations."""
+from typing import AsyncGenerator, Generic, List, Optional, Type, TypeVar
+from uuid import UUID
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.connection import async_session_factory
+
+ModelType = TypeVar("ModelType")
+
+
+class BaseRepository(Generic[ModelType]):
+    """Base repository with common CRUD operations."""
+
+    def __init__(self, model: Type[ModelType]) -> None:
+        self.model = model
+
+    async def _get_session(self) -> AsyncGenerator[AsyncSession, None]:
+        """Get database session."""
+        if async_session_factory is None:
+            raise RuntimeError("Database not initialized. Call init_db() first.")
+        async with async_session_factory() as session:
+            yield session
+
+    async def create(self, session: AsyncSession, obj: ModelType) -> ModelType:
+        """Create a new record."""
+        session.add(obj)
+        await session.commit()
+        await session.refresh(obj)
+        return obj
+
+    async def get_by_id(self, session: AsyncSession, id: str) -> Optional[ModelType]:
+        """Get record by ID."""
+        result = await session.execute(select(self.model).where(self.model.id == id))
+        return result.scalar_one_or_none()
+
+    async def get_all(self, session: AsyncSession, limit: int = 100) -> List[ModelType]:
+        """Get all records with limit."""
+        result = await session.execute(select(self.model).limit(limit))
+        return list(result.scalars().all())
+
+    async def delete(self, session: AsyncSession, id: str) -> bool:
+        """Delete record by ID."""
+        obj = await self.get_by_id(session, id)
+        if obj:
+            await session.delete(obj)
+            await session.commit()
+            return True
+        return False
diff --git a/src/benchmark_core/repositories/experiment_repository.py b/src/benchmark_core/repositories/experiment_repository.py
new file mode 100644
index 0000000..793541b
--- /dev/null
+++ b/src/benchmark_core/repositories/experiment_repository.py
@@ -0,0 +1,44 @@
+"""Repository for Experiment entity."""
+from typing import List, Optional
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import ExperimentModel
+from benchmark_core.models import Experiment
+
+
+class ExperimentRepository:
+    """Repository for Experiment CRUD operations."""
+
+    async def create(self, session: AsyncSession, experiment: Experiment) -> ExperimentModel:
+        """Create a new experiment."""
+        model = ExperimentModel(
+            experiment_id=str(experiment.experiment_id),
+            name=experiment.name,
+            description=experiment.description,
+            created_at=experiment.created_at,
+        )
+        session.add(model)
+        await session.commit()
+        await session.refresh(model)
+        return model
+
+    async def get_by_id(self, session: AsyncSession, experiment_id: str) -> Optional[ExperimentModel]:
+        """Get experiment by ID."""
+        result = await session.execute(
+            select(ExperimentModel).where(ExperimentModel.experiment_id == experiment_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_name(self, session: AsyncSession, name: str) -> Optional[ExperimentModel]:
+        """Get experiment by name."""
+        result = await session.execute(
+            select(ExperimentModel).where(ExperimentModel.name == name)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_all(self, session: AsyncSession, limit: int = 100) -> List[ExperimentModel]:
+        """Get all experiments."""
+        result = await session.execute(select(ExperimentModel).limit(limit))
+        return list(result.scalars().all())
diff --git a/src/benchmark_core/repositories/harness_profile_repository.py b/src/benchmark_core/repositories/harness_profile_repository.py
new file mode 100644
index 0000000..e63d78a
--- /dev/null
+++ b/src/benchmark_core/repositories/harness_profile_repository.py
@@ -0,0 +1,47 @@
+"""Repository for HarnessProfile entity."""
+from typing import List, Optional
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import HarnessProfileModel
+from benchmark_core.models import HarnessProfile
+
+
+class HarnessProfileRepository:
+    """Repository for HarnessProfile CRUD operations."""
+
+    async def create(self, session: AsyncSession, profile: HarnessProfile) -> HarnessProfileModel:
+        """Create a new harness profile."""
+        model = HarnessProfileModel(
+            harness_profile_id=str(profile.harness_profile_id),
+            name=profile.name,
+            protocol_surface=profile.protocol_surface,
+            base_url_env=profile.base_url_env,
+            api_key_env=profile.api_key_env,
+            model_env=profile.model_env,
+            created_at=profile.created_at,
+        )
+        session.add(model)
+        await session.commit()
+        await session.refresh(model)
+        return model
+
+    async def get_by_id(self, session: AsyncSession, profile_id: str) -> Optional[HarnessProfileModel]:
+        """Get harness profile by ID."""
+        result = await session.execute(
+            select(HarnessProfileModel).where(HarnessProfileModel.harness_profile_id == profile_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_name(self, session: AsyncSession, name: str) -> Optional[HarnessProfileModel]:
+        """Get harness profile by name."""
+        result = await session.execute(
+            select(HarnessProfileModel).where(HarnessProfileModel.name == name)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_all(self, session: AsyncSession, limit: int = 100) -> List[HarnessProfileModel]:
+        """Get all harness profiles."""
+        result = await session.execute(select(HarnessProfileModel).limit(limit))
+        return list(result.scalars().all())
diff --git a/src/benchmark_core/repositories/metric_rollup_repository.py b/src/benchmark_core/repositories/metric_rollup_repository.py
new file mode 100644
index 0000000..741aadb
--- /dev/null
+++ b/src/benchmark_core/repositories/metric_rollup_repository.py
@@ -0,0 +1,100 @@
+"""Repository for MetricRollup entity."""
+from typing import List, Optional
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import MetricRollupModel
+from benchmark_core.models import MetricRollup, RollupScopeType
+
+
+class MetricRollupRepository:
+    """Repository for MetricRollup CRUD operations."""
+
+    async def create(
+        self, session: AsyncSession, rollup: MetricRollup
+    ) -> MetricRollupModel:
+        """Create a new metric rollup."""
+        model = MetricRollupModel(
+            rollup_id=str(rollup.rollup_id),
+            scope_type=rollup.scope_type,
+            scope_id=str(rollup.scope_id),
+            metric_name=rollup.metric_name,
+            metric_value=rollup.metric_value,
+            computed_at=rollup.computed_at,
+            window_start=rollup.window_start,
+            window_end=rollup.window_end,
+        )
+        session.add(model)
+        await session.commit()
+        await session.refresh(model)
+        return model
+
+    async def upsert(
+        self, session: AsyncSession, rollup: MetricRollup
+    ) -> MetricRollupModel:
+        """Create or update metric rollup."""
+        existing = await self.get_by_scope_and_name(
+            session, rollup.scope_type, str(rollup.scope_id), rollup.metric_name
+        )
+        if existing:
+            existing.metric_value = rollup.metric_value
+            existing.computed_at = rollup.computed_at
+            existing.window_start = rollup.window_start
+            existing.window_end = rollup.window_end
+            await session.commit()
+            await session.refresh(existing)
+            return existing
+        return await self.create(session, rollup)
+
+    async def get_by_scope_and_name(
+        self,
+        session: AsyncSession,
+        scope_type: RollupScopeType,
+        scope_id: str,
+        metric_name: str,
+    ) -> Optional[MetricRollupModel]:
+        """Get rollup by scope and metric name."""
+        result = await session.execute(
+            select(MetricRollupModel).where(
+                MetricRollupModel.scope_type == scope_type,
+                MetricRollupModel.scope_id == scope_id,
+                MetricRollupModel.metric_name == metric_name,
+            )
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_scope(
+        self,
+        session: AsyncSession,
+        scope_type: RollupScopeType,
+        scope_id: str,
+    ) -> List[MetricRollupModel]:
+        """Get all rollups for a scope."""
+        result = await session.execute(
+            select(MetricRollupModel).where(
+                MetricRollupModel.scope_type == scope_type,
+                MetricRollupModel.scope_id == scope_id,
+            )
+        )
+        return list(result.scalars().all())
+
+    async def get_by_session(
+        self, session: AsyncSession, session_id: str
+    ) -> List[MetricRollupModel]:
+        """Get rollups for a session."""
+        return await self.get_by_scope(session, RollupScopeType.SESSION, session_id)
+
+    async def get_by_variant(
+        self, session: AsyncSession, variant_id: str
+    ) -> List[MetricRollupModel]:
+        """Get rollups for a variant."""
+        return await self.get_by_scope(session, RollupScopeType.VARIANT, variant_id)
+
+    async def get_by_experiment(
+        self, session: AsyncSession, experiment_id: str
+    ) -> List[MetricRollupModel]:
+        """Get rollups for an experiment."""
+        return await self.get_by_scope(
+            session, RollupScopeType.EXPERIMENT, experiment_id
+        )
diff --git a/src/benchmark_core/repositories/provider_repository.py b/src/benchmark_core/repositories/provider_repository.py
new file mode 100644
index 0000000..a384655
--- /dev/null
+++ b/src/benchmark_core/repositories/provider_repository.py
@@ -0,0 +1,56 @@
+"""Repository for Provider entity."""
+from typing import List, Optional
+from uuid import UUID
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import ProviderModel
+from benchmark_core.models import Provider
+
+
+class ProviderRepository:
+    """Repository for Provider CRUD operations."""
+
+    async def create(self, session: AsyncSession, provider: Provider) -> ProviderModel:
+        """Create a new provider."""
+        model = ProviderModel(
+            provider_id=str(provider.provider_id),
+            name=provider.name,
+            route_name=provider.route_name,
+            protocol_surface=provider.protocol_surface,
+            upstream_base_url=provider.upstream_base_url,
+            created_at=provider.created_at,
+        )
+        session.add(model)
+        await session.commit()
+        await session.refresh(model)
+        return model
+
+    async def get_by_id(self, session: AsyncSession, provider_id: str) -> Optional[ProviderModel]:
+        """Get provider by ID."""
+        result = await session.execute(
+            select(ProviderModel).where(ProviderModel.provider_id == provider_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_name(self, session: AsyncSession, name: str) -> Optional[ProviderModel]:
+        """Get provider by name."""
+        result = await session.execute(
+            select(ProviderModel).where(ProviderModel.name == name)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_all(self, session: AsyncSession, limit: int = 100) -> List[ProviderModel]:
+        """Get all providers."""
+        result = await session.execute(select(ProviderModel).limit(limit))
+        return list(result.scalars().all())
+
+    async def delete(self, session: AsyncSession, provider_id: str) -> bool:
+        """Delete provider by ID."""
+        model = await self.get_by_id(session, provider_id)
+        if model:
+            await session.delete(model)
+            await session.commit()
+            return True
+        return False
diff --git a/src/benchmark_core/repositories/request_repository.py b/src/benchmark_core/repositories/request_repository.py
new file mode 100644
index 0000000..a04cd15
--- /dev/null
+++ b/src/benchmark_core/repositories/request_repository.py
@@ -0,0 +1,96 @@
+"""Repository for Request entity."""
+from datetime import datetime
+from typing import List, Optional
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import RequestModel
+from benchmark_core.models import Request, RequestStatus
+
+
+class RequestRepository:
+    """Repository for Request CRUD operations."""
+
+    async def create(self, session: AsyncSession, req: Request) -> RequestModel:
+        """Create a new request."""
+        model = RequestModel(
+            request_id=str(req.request_id),
+            session_id=str(req.session_id) if req.session_id else None,
+            experiment_id=str(req.experiment_id) if req.experiment_id else None,
+            variant_id=str(req.variant_id) if req.variant_id else None,
+            provider_id=str(req.provider_id) if req.provider_id else None,
+            provider_route=req.provider_route,
+            model=req.model,
+            harness_profile_id=str(req.harness_profile_id) if req.harness_profile_id else None,
+            litellm_call_id=req.litellm_call_id,
+            provider_request_id=req.provider_request_id,
+            started_at=req.started_at,
+            finished_at=req.finished_at,
+            latency_ms=req.latency_ms,
+            ttft_ms=req.ttft_ms,
+            proxy_overhead_ms=req.proxy_overhead_ms,
+            provider_latency_ms=req.provider_latency_ms,
+            input_tokens=req.input_tokens,
+            output_tokens=req.output_tokens,
+            cached_input_tokens=req.cached_input_tokens,
+            cache_write_tokens=req.cache_write_tokens,
+            status=req.status,
+            error_code=req.error_code,
+        )
+        session.add(model)
+        await session.commit()
+        await session.refresh(model)
+        return model
+
+    async def get_by_id(self, session: AsyncSession, request_id: str) -> Optional[RequestModel]:
+        """Get request by ID."""
+        result = await session.execute(
+            select(RequestModel).where(RequestModel.request_id == request_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_litellm_call_id(
+        self, session: AsyncSession, litellm_call_id: str
+    ) -> Optional[RequestModel]:
+        """Get request by LiteLLM call ID."""
+        result = await session.execute(
+            select(RequestModel).where(RequestModel.litellm_call_id == litellm_call_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_session(
+        self, session: AsyncSession, session_id: str
+    ) -> List[RequestModel]:
+        """Get all requests for a session."""
+        result = await session.execute(
+            select(RequestModel).where(RequestModel.session_id == session_id)
+        )
+        return list(result.scalars().all())
+
+    async def get_by_time_window(
+        self,
+        session: AsyncSession,
+        start_time: datetime,
+        end_time: datetime,
+        limit: int = 1000,
+    ) -> List[RequestModel]:
+        """Get requests within a time window."""
+        result = await session.execute(
+            select(RequestModel)
+            .where(RequestModel.started_at >= start_time)
+            .where(RequestModel.started_at <= end_time)
+            .limit(limit)
+        )
+        return list(result.scalars().all())
+
+    async def exists_by_litellm_call_id(
+        self, session: AsyncSession, litellm_call_id: str
+    ) -> bool:
+        """Check if request with LiteLLM call ID exists."""
+        result = await session.execute(
+            select(RequestModel.request_id).where(
+                RequestModel.litellm_call_id == litellm_call_id
+            )
+        )
+        return result.scalar_one_or_none() is not None
diff --git a/src/benchmark_core/repositories/session_repository.py b/src/benchmark_core/repositories/session_repository.py
new file mode 100644
index 0000000..ac5feec
--- /dev/null
+++ b/src/benchmark_core/repositories/session_repository.py
@@ -0,0 +1,120 @@
+"""Repository for Session entity."""
+from datetime import datetime
+from typing import List, Optional
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+from sqlalchemy.exc import IntegrityError
+
+from benchmark_core.db.models import SessionModel
+from benchmark_core.models import Session, SessionStatus
+
+
+class DuplicateSessionError(Exception):
+    """Raised when attempting to create a session with duplicate identifier."""
+    pass
+
+
+class SessionRepository:
+    """Repository for Session CRUD operations with duplicate rejection."""
+
+    async def create(self, session: AsyncSession, sess: Session) -> SessionModel:
+        """Create a new session.
+        
+        Raises:
+            DuplicateSessionError: If session_id or proxy_key_alias already exists.
+        """
+        model = SessionModel(
+            session_id=str(sess.session_id),
+            experiment_id=str(sess.experiment_id),
+            variant_id=str(sess.variant_id),
+            task_card_id=str(sess.task_card_id),
+            harness_profile_id=str(sess.harness_profile_id),
+            status=sess.status,
+            started_at=sess.started_at,
+            ended_at=sess.ended_at,
+            operator_label=sess.operator_label,
+            repo_root=sess.repo_root,
+            git_branch=sess.git_branch,
+            git_commit_sha=sess.git_commit_sha,
+            git_dirty=sess.git_dirty,
+            proxy_key_alias=sess.proxy_key_alias,
+            proxy_virtual_key_id=sess.proxy_virtual_key_id,
+        )
+        session.add(model)
+        try:
+            await session.commit()
+            await session.refresh(model)
+            return model
+        except IntegrityError as e:
+            await session.rollback()
+            if "session_id" in str(e) or "proxy_key_alias" in str(e):
+                raise DuplicateSessionError(
+                    f"Session with identifier already exists: {sess.session_id}"
+                ) from e
+            raise
+
+    async def get_by_id(self, session: AsyncSession, session_id: str) -> Optional[SessionModel]:
+        """Get session by ID."""
+        result = await session.execute(
+            select(SessionModel).where(SessionModel.session_id == session_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_proxy_key_alias(
+        self, session: AsyncSession, alias: str
+    ) -> Optional[SessionModel]:
+        """Get session by proxy key alias."""
+        result = await session.execute(
+            select(SessionModel).where(SessionModel.proxy_key_alias == alias)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_all(self, session: AsyncSession, limit: int = 100) -> List[SessionModel]:
+        """Get all sessions."""
+        result = await session.execute(select(SessionModel).limit(limit))
+        return list(result.scalars().all())
+
+    async def get_by_status(
+        self, session: AsyncSession, status: SessionStatus
+    ) -> List[SessionModel]:
+        """Get sessions by status."""
+        result = await session.execute(
+            select(SessionModel).where(SessionModel.status == status)
+        )
+        return list(result.scalars().all())
+
+    async def get_by_experiment(
+        self, session: AsyncSession, experiment_id: str
+    ) -> List[SessionModel]:
+        """Get sessions by experiment ID."""
+        result = await session.execute(
+            select(SessionModel).where(SessionModel.experiment_id == experiment_id)
+        )
+        return list(result.scalars().all())
+
+    async def get_by_variant(
+        self, session: AsyncSession, variant_id: str
+    ) -> List[SessionModel]:
+        """Get sessions by variant ID."""
+        result = await session.execute(
+            select(SessionModel).where(SessionModel.variant_id == variant_id)
+        )
+        return list(result.scalars().all())
+
+    async def finalize(
+        self,
+        session: AsyncSession,
+        session_id: str,
+        status: SessionStatus,
+        ended_at: datetime,
+    ) -> Optional[SessionModel]:
+        """Finalize a session with final status."""
+        model = await self.get_by_id(session, session_id)
+        if model:
+            model.status = status
+            model.ended_at = ended_at
+            await session.commit()
+            await session.refresh(model)
+            return model
+        return None
diff --git a/src/benchmark_core/repositories/task_card_repository.py b/src/benchmark_core/repositories/task_card_repository.py
new file mode 100644
index 0000000..36802d5
--- /dev/null
+++ b/src/benchmark_core/repositories/task_card_repository.py
@@ -0,0 +1,47 @@
+"""Repository for TaskCard entity."""
+from typing import List, Optional
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import TaskCardModel
+from benchmark_core.models import TaskCard
+
+
+class TaskCardRepository:
+    """Repository for TaskCard CRUD operations."""
+
+    async def create(self, session: AsyncSession, task_card: TaskCard) -> TaskCardModel:
+        """Create a new task card."""
+        model = TaskCardModel(
+            task_card_id=str(task_card.task_card_id),
+            name=task_card.name,
+            repo_path=task_card.repo_path,
+            goal=task_card.goal,
+            stop_condition=task_card.stop_condition,
+            session_timebox_minutes=task_card.session_timebox_minutes,
+            created_at=task_card.created_at,
+        )
+        session.add(model)
+        await session.commit()
+        await session.refresh(model)
+        return model
+
+    async def get_by_id(self, session: AsyncSession, task_card_id: str) -> Optional[TaskCardModel]:
+        """Get task card by ID."""
+        result = await session.execute(
+            select(TaskCardModel).where(TaskCardModel.task_card_id == task_card_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_name(self, session: AsyncSession, name: str) -> Optional[TaskCardModel]:
+        """Get task card by name."""
+        result = await session.execute(
+            select(TaskCardModel).where(TaskCardModel.name == name)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_all(self, session: AsyncSession, limit: int = 100) -> List[TaskCardModel]:
+        """Get all task cards."""
+        result = await session.execute(select(TaskCardModel).limit(limit))
+        return list(result.scalars().all())
diff --git a/src/benchmark_core/repositories/variant_repository.py b/src/benchmark_core/repositories/variant_repository.py
new file mode 100644
index 0000000..d45963a
--- /dev/null
+++ b/src/benchmark_core/repositories/variant_repository.py
@@ -0,0 +1,61 @@
+"""Repository for Variant entity."""
+from typing import List, Optional
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import VariantModel
+from benchmark_core.models import Variant
+
+
+class VariantRepository:
+    """Repository for Variant CRUD operations."""
+
+    async def create(self, session: AsyncSession, variant: Variant) -> VariantModel:
+        """Create a new variant."""
+        model = VariantModel(
+            variant_id=str(variant.variant_id),
+            name=variant.name,
+            provider_id=str(variant.provider_id),
+            model_alias=variant.model_alias,
+            harness_profile_id=str(variant.harness_profile_id),
+            config_fingerprint=variant.config_fingerprint,
+            created_at=variant.created_at,
+        )
+        session.add(model)
+        await session.commit()
+        await session.refresh(model)
+        return model
+
+    async def get_by_id(self, session: AsyncSession, variant_id: str) -> Optional[VariantModel]:
+        """Get variant by ID."""
+        result = await session.execute(
+            select(VariantModel).where(VariantModel.variant_id == variant_id)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_by_name(self, session: AsyncSession, name: str) -> Optional[VariantModel]:
+        """Get variant by name."""
+        result = await session.execute(
+            select(VariantModel).where(VariantModel.name == name)
+        )
+        return result.scalar_one_or_none()
+
+    async def get_all(self, session: AsyncSession, limit: int = 100) -> List[VariantModel]:
+        """Get all variants."""
+        result = await session.execute(select(VariantModel).limit(limit))
+        return list(result.scalars().all())
+
+    async def get_by_experiment(
+        self, session: AsyncSession, experiment_id: str
+    ) -> List[VariantModel]:
+        """Get variants by experiment ID through sessions."""
+        from sqlalchemy import distinct
+
+        result = await session.execute(
+            select(VariantModel)
+            .join(VariantModel.sessions)
+            .where(VariantModel.sessions.any(experiment_id=experiment_id))
+            .distinct()
+        )
+        return list(result.scalars().all())
diff --git a/src/benchmark_core/services/__init__.py b/src/benchmark_core/services/__init__.py
new file mode 100644
index 0000000..0c2e512
--- /dev/null
+++ b/src/benchmark_core/services/__init__.py
@@ -0,0 +1,4 @@
+"""Service layer for benchmark operations."""
+from benchmark_core.services.session_service import SessionService
+
+__all__ = ["SessionService"]
diff --git a/src/benchmark_core/services/__pycache__/__init__.cpython-312.pyc b/src/benchmark_core/services/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..3621719
Binary files /dev/null and b/src/benchmark_core/services/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/benchmark_core/services/__pycache__/session_service.cpython-312.pyc b/src/benchmark_core/services/__pycache__/session_service.cpython-312.pyc
new file mode 100644
index 0000000..8ff047e
Binary files /dev/null and b/src/benchmark_core/services/__pycache__/session_service.cpython-312.pyc differ
diff --git a/src/benchmark_core/services/session_service.py b/src/benchmark_core/services/session_service.py
new file mode 100644
index 0000000..f59391a
--- /dev/null
+++ b/src/benchmark_core/services/session_service.py
@@ -0,0 +1,142 @@
+"""Session lifecycle service."""
+from datetime import datetime
+from typing import Optional
+from uuid import UUID
+
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.models import Session, SessionStatus
+from benchmark_core.repositories.session_repository import (
+    DuplicateSessionError,
+    SessionRepository,
+)
+
+
+class SessionService:
+    """Service for session lifecycle operations."""
+
+    def __init__(self, session: AsyncSession):
+        self.session = session
+        self.session_repo = SessionRepository()
+
+    async def create_session(
+        self,
+        session_id: UUID,
+        experiment_id: UUID,
+        variant_id: UUID,
+        task_card_id: UUID,
+        harness_profile_id: UUID,
+        operator_label: Optional[str] = None,
+        repo_root: Optional[str] = None,
+        git_branch: Optional[str] = None,
+        git_commit_sha: Optional[str] = None,
+        git_dirty: Optional[bool] = None,
+        proxy_key_alias: Optional[str] = None,
+        proxy_virtual_key_id: Optional[str] = None,
+    ) -> Session:
+        """Create a new benchmark session.
+
+        Args:
+            session_id: Unique session identifier
+            experiment_id: Experiment this session belongs to
+            variant_id: Variant configuration for this session
+            task_card_id: Task card defining the work
+            harness_profile_id: Harness profile in use
+            operator_label: Optional operator-provided label
+            repo_root: Repository root path
+            git_branch: Current git branch
+            git_commit_sha: Current git commit SHA
+            git_dirty: Whether repo has uncommitted changes
+            proxy_key_alias: Alias for the proxy key
+            proxy_virtual_key_id: LiteLLM virtual key ID
+
+        Returns:
+            Created session domain model
+
+        Raises:
+            DuplicateSessionError: If session with same ID or proxy_key_alias exists
+        """
+        new_session = Session(
+            session_id=session_id,
+            experiment_id=experiment_id,
+            variant_id=variant_id,
+            task_card_id=task_card_id,
+            harness_profile_id=harness_profile_id,
+            status=SessionStatus.PENDING,
+            started_at=datetime.utcnow(),
+            operator_label=operator_label,
+            repo_root=repo_root,
+            git_branch=git_branch,
+            git_commit_sha=git_commit_sha,
+            git_dirty=git_dirty,
+            proxy_key_alias=proxy_key_alias,
+            proxy_virtual_key_id=proxy_virtual_key_id,
+        )
+        
+        await self.session_repo.create(self.session, new_session)
+        return new_session
+
+    async def finalize_session(
+        self,
+        session_id: UUID,
+        status: SessionStatus,
+        ended_at: Optional[datetime] = None,
+    ) -> Optional[Session]:
+        """Finalize a session with final status.
+
+        Args:
+            session_id: Session to finalize
+            status: Final status (COMPLETED, ABORTED, or INVALID)
+            ended_at: End timestamp (defaults to now)
+
+        Returns:
+            Updated session model or None if not found
+        """
+        if ended_at is None:
+            ended_at = datetime.utcnow()
+
+        model = await self.session_repo.finalize(
+            self.session, str(session_id), status, ended_at
+        )
+        if model:
+            return Session(
+                session_id=UUID(model.session_id),
+                experiment_id=UUID(model.experiment_id),
+                variant_id=UUID(model.variant_id),
+                task_card_id=UUID(model.task_card_id),
+                harness_profile_id=UUID(model.harness_profile_id),
+                status=model.status,
+                started_at=model.started_at,
+                ended_at=model.ended_at,
+                operator_label=model.operator_label,
+                repo_root=model.repo_root,
+                git_branch=model.git_branch,
+                git_commit_sha=model.git_commit_sha,
+                git_dirty=model.git_dirty,
+                proxy_key_alias=model.proxy_key_alias,
+                proxy_virtual_key_id=model.proxy_virtual_key_id,
+            )
+        return None
+
+    async def get_session(self, session_id: UUID) -> Optional[Session]:
+        """Get session by ID."""
+        model = await self.session_repo.get_by_id(self.session, str(session_id))
+        if model:
+            return Session(
+                session_id=UUID(model.session_id),
+                experiment_id=UUID(model.experiment_id),
+                variant_id=UUID(model.variant_id),
+                task_card_id=UUID(model.task_card_id),
+                harness_profile_id=UUID(model.harness_profile_id),
+                status=model.status,
+                started_at=model.started_at,
+                ended_at=model.ended_at,
+                operator_label=model.operator_label,
+                repo_root=model.repo_root,
+                git_branch=model.git_branch,
+                git_commit_sha=model.git_commit_sha,
+                git_dirty=model.git_dirty,
+                proxy_key_alias=model.proxy_key_alias,
+                proxy_virtual_key_id=model.proxy_virtual_key_id,
+            )
+        return None
diff --git a/src/cli/__init__.py b/src/cli/__init__.py
new file mode 100644
index 0000000..b1e1432
--- /dev/null
+++ b/src/cli/__init__.py
@@ -0,0 +1 @@
+"""CLI commands for benchmark operations."""
diff --git a/src/cli/__pycache__/__init__.cpython-312.pyc b/src/cli/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..71b1f2c
Binary files /dev/null and b/src/cli/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/collectors/__init__.py b/src/collectors/__init__.py
new file mode 100644
index 0000000..9997d55
--- /dev/null
+++ b/src/collectors/__init__.py
@@ -0,0 +1,19 @@
+"""Collectors for LiteLLM and Prometheus data."""
+from collectors.litellm_collector import (
+    LiteLLMCollector,
+    MissingFieldError,
+    UnmappedRowError,
+)
+from collectors.normalizer import NormalizationDiagnostics, RequestNormalizer
+from collectors.prometheus_collector import PrometheusCollector
+from collectors.rollups import MetricRollupService
+
+__all__ = [
+    "LiteLLMCollector",
+    "MissingFieldError",
+    "UnmappedRowError",
+    "NormalizationDiagnostics",
+    "RequestNormalizer",
+    "PrometheusCollector",
+    "MetricRollupService",
+]
diff --git a/src/collectors/__pycache__/__init__.cpython-312.pyc b/src/collectors/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..d41a5ca
Binary files /dev/null and b/src/collectors/__pycache__/__init__.cpython-312.pyc differ
diff --git a/src/collectors/__pycache__/litellm_collector.cpython-312.pyc b/src/collectors/__pycache__/litellm_collector.cpython-312.pyc
new file mode 100644
index 0000000..646f821
Binary files /dev/null and b/src/collectors/__pycache__/litellm_collector.cpython-312.pyc differ
diff --git a/src/collectors/__pycache__/normalizer.cpython-312.pyc b/src/collectors/__pycache__/normalizer.cpython-312.pyc
new file mode 100644
index 0000000..f7d716b
Binary files /dev/null and b/src/collectors/__pycache__/normalizer.cpython-312.pyc differ
diff --git a/src/collectors/__pycache__/prometheus_collector.cpython-312.pyc b/src/collectors/__pycache__/prometheus_collector.cpython-312.pyc
new file mode 100644
index 0000000..b208ba1
Binary files /dev/null and b/src/collectors/__pycache__/prometheus_collector.cpython-312.pyc differ
diff --git a/src/collectors/__pycache__/rollups.cpython-312.pyc b/src/collectors/__pycache__/rollups.cpython-312.pyc
new file mode 100644
index 0000000..f903bf5
Binary files /dev/null and b/src/collectors/__pycache__/rollups.cpython-312.pyc differ
diff --git a/src/collectors/litellm_collector.py b/src/collectors/litellm_collector.py
new file mode 100644
index 0000000..3db7f84
--- /dev/null
+++ b/src/collectors/litellm_collector.py
@@ -0,0 +1,208 @@
+"""LiteLLM request collector for ingesting raw request records."""
+import structlog
+from datetime import datetime
+from typing import Any, Dict, List, Optional
+from uuid import UUID
+
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.models import Request, RequestStatus
+from benchmark_core.repositories.request_repository import RequestRepository
+from benchmark_core.repositories.session_repository import SessionRepository
+
+
+logger = structlog.get_logger()
+
+
+class MissingFieldError(Exception):
+    """Raised when a required field is missing from raw data."""
+    pass
+
+
+class UnmappedRowError(Exception):
+    """Raised when a row cannot be mapped to a session."""
+    pass
+
+
+class LiteLLMCollector:
+    """Collector for ingesting LiteLLM request data."""
+
+    REQUIRED_FIELDS = ["litellm_call_id", "model", "started_at"]
+    CORRELATION_KEYS = ["session_id", "experiment_id", "variant_id", "provider_id"]
+
+    def __init__(self, session: AsyncSession):
+        self.session = session
+        self.request_repo = RequestRepository()
+        self.session_repo = SessionRepository()
+        self.diagnostics: List[Dict[str, Any]] = []
+
+    def _validate_required_fields(self, raw_data: Dict[str, Any]) -> None:
+        """Validate that required fields are present."""
+        missing = []
+        for field in self.REQUIRED_FIELDS:
+            if field not in raw_data or raw_data[field] is None:
+                missing.append(field)
+        
+        if missing:
+            error_msg = f"Missing required fields: {', '.join(missing)}"
+            self.diagnostics.append({
+                "type": "missing_field",
+                "fields": missing,
+                "raw_data_sample": {k: str(v)[:100] for k, v in list(raw_data.items())[:5]},
+                "message": error_msg,
+            })
+            raise MissingFieldError(error_msg)
+
+    def _extract_correlation_keys(self, raw_data: Dict[str, Any]) -> Dict[str, Optional[str]]:
+        """Extract correlation keys from raw data."""
+        keys = {}
+        for key in self.CORRELATION_KEYS:
+            value = raw_data.get(key)
+            if value is not None:
+                keys[key] = str(value)
+            else:
+                keys[key] = None
+        
+        # Try to extract from tags if present
+        tags = raw_data.get("tags", {})
+        if isinstance(tags, dict):
+            for key in self.CORRELATION_KEYS:
+                if keys[key] is None and key in tags:
+                    keys[key] = str(tags[key])
+        
+        return keys
+
+    async def _resolve_session(
+        self, 
+        correlation_keys: Dict[str, Optional[str]],
+        proxy_key_alias: Optional[str] = None,
+    ) -> Optional[str]:
+        """Resolve session from correlation keys or proxy key alias."""
+        # First try direct session_id
+        if correlation_keys.get("session_id"):
+            return correlation_keys["session_id"]
+        
+        # Try to find session by proxy_key_alias
+        if proxy_key_alias:
+            session_model = await self.session_repo.get_by_proxy_key_alias(
+                self.session, proxy_key_alias
+            )
+            if session_model:
+                return session_model.session_id
+        
+        return None
+
+    def _parse_status(self, raw_status: Optional[str]) -> RequestStatus:
+        """Parse request status from raw data."""
+        if raw_status is None:
+            return RequestStatus.SUCCESS
+        
+        status_map = {
+            "success": RequestStatus.SUCCESS,
+            "error": RequestStatus.ERROR,
+            "timeout": RequestStatus.TIMEOUT,
+            "cancelled": RequestStatus.CANCELLED,
+        }
+        return status_map.get(raw_status.lower(), RequestStatus.SUCCESS)
+
+    async def ingest_raw_request(self, raw_data: Dict[str, Any]) -> Optional[Request]:
+        """Ingest a single raw request record.
+
+        Args:
+            raw_data: Raw request data from LiteLLM
+
+        Returns:
+            Normalized Request model or None if duplicate
+
+        Raises:
+            MissingFieldError: If required fields are missing
+            UnmappedRowError: If row cannot be mapped to session (when required)
+        """
+        # Validate required fields
+        self._validate_required_fields(raw_data)
+
+        litellm_call_id = raw_data["litellm_call_id"]
+
+        # Check for duplicate
+        if await self.request_repo.exists_by_litellm_call_id(
+            self.session, litellm_call_id
+        ):
+            logger.debug(
+                "Skipping duplicate request",
+                litellm_call_id=litellm_call_id,
+            )
+            return None
+
+        # Extract correlation keys
+        correlation_keys = self._extract_correlation_keys(raw_data)
+        proxy_key_alias = raw_data.get("proxy_key_alias")
+
+        # Resolve session
+        session_id = await self._resolve_session(correlation_keys, proxy_key_alias)
+
+        # Map status
+        status = self._parse_status(raw_data.get("status"))
+
+        # Build normalized request
+        request = Request(
+            session_id=UUID(session_id) if session_id else None,
+            experiment_id=UUID(correlation_keys["experiment_id"]) if correlation_keys.get("experiment_id") else None,
+            variant_id=UUID(correlation_keys["variant_id"]) if correlation_keys.get("variant_id") else None,
+            provider_id=UUID(correlation_keys["provider_id"]) if correlation_keys.get("provider_id") else None,
+            provider_route=raw_data.get("provider_route"),
+            model=raw_data.get("model"),
+            harness_profile_id=UUID(correlation_keys.get("harness_profile_id")) if correlation_keys.get("harness_profile_id") else None,
+            litellm_call_id=litellm_call_id,
+            provider_request_id=raw_data.get("provider_request_id"),
+            started_at=raw_data.get("started_at"),
+            finished_at=raw_data.get("finished_at"),
+            latency_ms=raw_data.get("latency_ms"),
+            ttft_ms=raw_data.get("ttft_ms"),
+            proxy_overhead_ms=raw_data.get("proxy_overhead_ms"),
+            provider_latency_ms=raw_data.get("provider_latency_ms"),
+            input_tokens=raw_data.get("input_tokens"),
+            output_tokens=raw_data.get("output_tokens"),
+            cached_input_tokens=raw_data.get("cached_input_tokens"),
+            cache_write_tokens=raw_data.get("cache_write_tokens"),
+            status=status,
+            error_code=raw_data.get("error_code"),
+        )
+
+        # Persist
+        model = await self.request_repo.create(self.session, request)
+        
+        logger.info(
+            "Ingested request",
+            request_id=model.request_id,
+            litellm_call_id=litellm_call_id,
+            session_id=session_id,
+        )
+
+        return request
+
+    async def ingest_batch(self, raw_requests: List[Dict[str, Any]]) -> int:
+        """Ingest multiple raw request records.
+
+        Args:
+            raw_requests: List of raw request data
+
+        Returns:
+            Number of successfully ingested records
+        """
+        ingested = 0
+        for raw_data in raw_requests:
+            try:
+                result = await self.ingest_raw_request(raw_data)
+                if result:
+                    ingested += 1
+            except (MissingFieldError, UnmappedRowError) as e:
+                logger.warning(
+                    "Failed to ingest request",
+                    error=str(e),
+                    litellm_call_id=raw_data.get("litellm_call_id"),
+                )
+        return ingested
+
+    def get_diagnostics(self) -> List[Dict[str, Any]]:
+        """Get accumulated diagnostics."""
+        return self.diagnostics
diff --git a/src/collectors/normalizer.py b/src/collectors/normalizer.py
new file mode 100644
index 0000000..87a0f19
--- /dev/null
+++ b/src/collectors/normalizer.py
@@ -0,0 +1,197 @@
+"""Request normalization logic for canonical field mapping."""
+import structlog
+from datetime import datetime
+from typing import Any, Dict, List, Optional
+from uuid import UUID
+
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import RequestModel, SessionModel, VariantModel
+from benchmark_core.models import Request
+
+
+logger = structlog.get_logger()
+
+
+class NormalizationDiagnostics:
+    """Container for normalization diagnostics."""
+
+    def __init__(self):
+        self.missing_sessions: List[str] = []
+        self.missing_variants: List[str] = []
+        self.unmapped_rows: List[Dict[str, Any]] = []
+
+    def has_issues(self) -> bool:
+        return bool(self.missing_sessions or self.missing_variants or self.unmapped_rows)
+
+    def to_dict(self) -> Dict[str, Any]:
+        return {
+            "missing_sessions": self.missing_sessions,
+            "missing_variants": self.missing_variants,
+            "unmapped_rows": self.unmapped_rows,
+        }
+
+
+class RequestNormalizer:
+    """Normalizes raw requests to canonical format."""
+
+    CANONICAL_FIELDS = [
+        "request_id",
+        "session_id",
+        "variant_id",
+        "experiment_id",
+        "provider_id",
+        "provider_route",
+        "model",
+        "harness_profile_id",
+        "litellm_call_id",
+        "provider_request_id",
+        "started_at",
+        "finished_at",
+        "latency_ms",
+        "ttft_ms",
+        "input_tokens",
+        "output_tokens",
+        "cached_input_tokens",
+        "cache_write_tokens",
+        "status",
+    ]
+
+    def __init__(self, session: AsyncSession):
+        self.session = session
+        self.diagnostics = NormalizationDiagnostics()
+
+    async def normalize_request(self, request: RequestModel) -> Optional[Request]:
+        """Normalize a single request model to canonical format.
+
+        Args:
+            request: Raw request model from database
+
+        Returns:
+            Normalized Request domain model
+        """
+        # Check join integrity
+        if request.session_id and not request.session:
+            self.diagnostics.missing_sessions.append(request.session_id)
+            logger.warning(
+                "Request references missing session",
+                request_id=request.request_id,
+                session_id=request.session_id,
+            )
+
+        if request.variant_id and not request.variant:
+            self.diagnostics.missing_variants.append(request.variant_id)
+            logger.warning(
+                "Request references missing variant",
+                request_id=request.request_id,
+                variant_id=request.variant_id,
+            )
+
+        return Request(
+            request_id=UUID(request.request_id),
+            session_id=UUID(request.session_id) if request.session_id else None,
+            experiment_id=UUID(request.experiment_id) if request.experiment_id else None,
+            variant_id=UUID(request.variant_id) if request.variant_id else None,
+            provider_id=UUID(request.provider_id) if request.provider_id else None,
+            provider_route=request.provider_route,
+            model=request.model,
+            harness_profile_id=UUID(request.harness_profile_id) if request.harness_profile_id else None,
+            litellm_call_id=request.litellm_call_id,
+            provider_request_id=request.provider_request_id,
+            started_at=request.started_at,
+            finished_at=request.finished_at,
+            latency_ms=request.latency_ms,
+            ttft_ms=request.ttft_ms,
+            proxy_overhead_ms=request.proxy_overhead_ms,
+            provider_latency_ms=request.provider_latency_ms,
+            input_tokens=request.input_tokens,
+            output_tokens=request.output_tokens,
+            cached_input_tokens=request.cached_input_tokens,
+            cache_write_tokens=request.cache_write_tokens,
+            status=request.status,
+            error_code=request.error_code,
+        )
+
+    async def normalize_unmapped(
+        self, 
+        raw_requests: List[Dict[str, Any]],
+        session_alias_map: Optional[Dict[str, str]] = None,
+    ) -> int:
+        """Normalize raw requests that lack session correlation.
+
+        This method attempts to map requests to sessions using
+        proxy_key_alias lookups.
+
+        Args:
+            raw_requests: Raw request data lacking session_id
+            session_alias_map: Optional mapping of proxy_key_alias to session_id
+
+        Returns:
+            Number of successfully mapped requests
+        """
+        mapped = 0
+        session_alias_map = session_alias_map or {}
+
+        for raw in raw_requests:
+            proxy_alias = raw.get("proxy_key_alias")
+            if not proxy_alias or proxy_alias not in session_alias_map:
+                self.diagnostics.unmapped_rows.append({
+                    "litellm_call_id": raw.get("litellm_call_id"),
+                    "reason": "no_matching_proxy_alias",
+                })
+                continue
+
+            # Inject session_id from mapping
+            raw["session_id"] = session_alias_map[proxy_alias]
+            mapped += 1
+
+        return mapped
+
+    async def join_to_sessions(
+        self, 
+        start_time: Optional[datetime] = None,
+        end_time: Optional[datetime] = None,
+    ) -> List[Dict[str, Any]]:
+        """Join requests to sessions and variants for analysis.
+
+        Args:
+            start_time: Filter requests after this time
+            end_time: Filter requests before this time
+
+        Returns:
+            List of joined records with session and variant info
+        """
+        query = (
+            select(RequestModel, SessionModel, VariantModel)
+            .join(SessionModel, RequestModel.session_id == SessionModel.session_id)
+            .join(VariantModel, SessionModel.variant_id == VariantModel.variant_id)
+        )
+
+        if start_time:
+            query = query.where(RequestModel.started_at >= start_time)
+        if end_time:
+            query = query.where(RequestModel.started_at <= end_time)
+
+        result = await self.session.execute(query)
+        
+        joined = []
+        for req, sess, var in result.all():
+            joined.append({
+                "request_id": req.request_id,
+                "session_id": sess.session_id,
+                "variant_id": var.variant_id,
+                "experiment_id": sess.experiment_id,
+                "provider_id": var.provider_id,
+                "model": req.model,
+                "latency_ms": req.latency_ms,
+                "ttft_ms": req.ttft_ms,
+                "status": req.status.value,
+                "started_at": req.started_at.isoformat() if req.started_at else None,
+            })
+
+        return joined
+
+    def get_diagnostics(self) -> NormalizationDiagnostics:
+        """Get normalization diagnostics."""
+        return self.diagnostics
diff --git a/src/collectors/prometheus_collector.py b/src/collectors/prometheus_collector.py
new file mode 100644
index 0000000..e7ea0bd
--- /dev/null
+++ b/src/collectors/prometheus_collector.py
@@ -0,0 +1,251 @@
+"""Prometheus metrics collector for operational data."""
+import structlog
+from datetime import datetime, timedelta
+from typing import Any, Dict, List, Optional
+
+import httpx
+
+logger = structlog.get_logger()
+
+
+class PrometheusCollector:
+    """Collector for Prometheus metrics."""
+
+    def __init__(self, prometheus_url: str):
+        self.prometheus_url = prometheus_url.rstrip("/")
+        self.client = httpx.AsyncClient(timeout=30.0)
+
+    async def close(self) -> None:
+        """Close HTTP client."""
+        await self.client.aclose()
+
+    async def query(self, query: str) -> Dict[str, Any]:
+        """Execute instant query.
+
+        Args:
+            query: PromQL query string
+
+        Returns:
+            Query result dict
+        """
+        try:
+            response = await self.client.get(
+                f"{self.prometheus_url}/api/v1/query",
+                params={"query": query},
+            )
+            response.raise_for_status()
+            return response.json()
+        except httpx.HTTPError as e:
+            logger.error(
+                "Prometheus query failed",
+                query=query,
+                error=str(e),
+            )
+            raise
+
+    async def query_range(
+        self,
+        query: str,
+        start: datetime,
+        end: datetime,
+        step: str = "15s",
+    ) -> Dict[str, Any]:
+        """Execute range query.
+
+        Args:
+            query: PromQL query string
+            start: Start time
+            end: End time
+            step: Query step interval
+
+        Returns:
+            Query result dict
+        """
+        try:
+            response = await self.client.get(
+                f"{self.prometheus_url}/api/v1/query_range",
+                params={
+                    "query": query,
+                    "start": start.timestamp(),
+                    "end": end.timestamp(),
+                    "step": step,
+                },
+            )
+            response.raise_for_status()
+            return response.json()
+        except httpx.HTTPError as e:
+            logger.error(
+                "Prometheus range query failed",
+                query=query,
+                error=str(e),
+            )
+            raise
+
+    async def collect_litellm_latency(
+        self,
+        window_seconds: int = 300,
+    ) -> List[Dict[str, Any]]:
+        """Collect LiteLLM latency metrics.
+
+        Args:
+            window_seconds: Time window to query
+
+        Returns:
+            List of latency metric records
+        """
+        end = datetime.utcnow()
+        start = end - timedelta(seconds=window_seconds)
+
+        # Query for latency histogram
+        result = await self.query_range(
+            'histogram_quantile(0.50, rate(litellm_request_duration_seconds_bucket[1m]))',
+            start,
+            end,
+        )
+
+        metrics = []
+        if result.get("status") == "success":
+            for item in result.get("data", {}).get("result", []):
+                metrics.append({
+                    "metric_name": "latency_p50_seconds",
+                    "labels": item.get("metric", {}),
+                    "values": item.get("values", []),
+                })
+
+        return metrics
+
+    async def collect_request_counts(
+        self,
+        window_seconds: int = 300,
+        tags: Optional[Dict[str, str]] = None,
+    ) -> Dict[str, int]:
+        """Collect request count metrics.
+
+        Args:
+            window_seconds: Time window to query
+            tags: Optional tags to filter by
+
+        Returns:
+            Dict with request counts
+        """
+        end = datetime.utcnow()
+        start = end - timedelta(seconds=window_seconds)
+
+        # Build label filter
+        label_filter = ""
+        if tags:
+            label_parts = [f'{k}="{v}"' for k, v in tags.items()]
+            label_filter = "{" + ",".join(label_parts) + "}"
+
+        # Query for total requests
+        total_query = f'sum(increase(litellm_requests_total{label_filter}[{window_seconds}s]))'
+        total_result = await self.query(total_query)
+
+        total = 0.0
+        if total_result.get("status") == "success":
+            results = total_result.get("data", {}).get("result", [])
+            if results:
+                total = float(results[0].get("value", [None, 0])[1])
+
+        # Query for error requests
+        error_query = f'sum(increase(litellm_request_errors_total{label_filter}[{window_seconds}s]))'
+        error_result = await self.query(error_query)
+
+        errors = 0.0
+        if error_result.get("status") == "success":
+            results = error_result.get("data", {}).get("result", [])
+            if results:
+                errors = float(results[0].get("value", [None, 0])[1])
+
+        return {
+            "total_requests": int(total),
+            "error_requests": int(errors),
+            "success_requests": int(total - errors),
+            "window_seconds": window_seconds,
+        }
+
+    async def collect_cache_metrics(
+        self,
+        window_seconds: int = 300,
+    ) -> Dict[str, int]:
+        """Collect cache hit/miss metrics.
+
+        Args:
+            window_seconds: Time window to query
+
+        Returns:
+            Dict with cache metrics
+        """
+        end = datetime.utcnow()
+        start = end - timedelta(seconds=window_seconds)
+
+        # Query for cache hits
+        hits_query = f'sum(increase(litellm_cache_hits_total[{window_seconds}s]))'
+        hits_result = await self.query(hits_query)
+
+        hits = 0.0
+        if hits_result.get("status") == "success":
+            results = hits_result.get("data", {}).get("result", [])
+            if results:
+                hits = float(results[0].get("value", [None, 0])[1])
+
+        # Query for total requests with potential caching
+        total_query = f'sum(increase(litellm_requests_total[{window_seconds}s]))'
+        total_result = await self.query(total_query)
+
+        total = 0.0
+        if total_result.get("status") == "success":
+            results = total_result.get("data", {}).get("result", [])
+            if results:
+                total = float(results[0].get("value", [None, 0])[1])
+
+        return {
+            "cache_hits": int(hits),
+            "total_requests": int(total),
+            "cache_hit_ratio": hits / total if total > 0 else 0.0,
+            "window_seconds": window_seconds,
+        }
+
+    async def collect_summary(
+        self,
+        window_seconds: int = 300,
+        tags: Optional[Dict[str, str]] = None,
+    ) -> Dict[str, Any]:
+        """Collect comprehensive metrics summary.
+
+        Args:
+            window_seconds: Time window to query
+            tags: Optional tags to filter by
+
+        Returns:
+            Dict with all collected metrics
+        """
+        try:
+            request_counts = await self.collect_request_counts(window_seconds, tags)
+            cache_metrics = await self.collect_cache_metrics(window_seconds)
+
+            return {
+                "requests": request_counts,
+                "cache": cache_metrics,
+                "window_seconds": window_seconds,
+            }
+        except httpx.HTTPError as e:
+            logger.error(
+                "Failed to collect Prometheus summary",
+                error=str(e),
+            )
+            # Return empty window handling
+            return {
+                "requests": {
+                    "total_requests": 0,
+                    "error_requests": 0,
+                    "success_requests": 0,
+                },
+                "cache": {
+                    "cache_hits": 0,
+                    "total_requests": 0,
+                    "cache_hit_ratio": 0.0,
+                },
+                "window_seconds": window_seconds,
+                "error": str(e),
+            }
diff --git a/src/collectors/rollups.py b/src/collectors/rollups.py
new file mode 100644
index 0000000..1cdbbbf
--- /dev/null
+++ b/src/collectors/rollups.py
@@ -0,0 +1,333 @@
+"""Metric rollup computation for sessions, variants, and experiments."""
+import structlog
+from datetime import datetime, timedelta
+from typing import Dict, List, Optional
+from uuid import UUID
+
+import numpy as np
+from sqlalchemy import func, select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.db.models import MetricRollupModel, RequestModel, SessionModel
+from benchmark_core.models import MetricRollup, RequestStatus, RollupScopeType
+from benchmark_core.repositories.metric_rollup_repository import MetricRollupRepository
+
+
+logger = structlog.get_logger()
+
+
+class EmptyWindowError(Exception):
+    """Raised when a rollup window has no data."""
+    pass
+
+
+class MetricRollupService:
+    """Service for computing metric rollups."""
+
+    # Metric names that must be computed
+    SESSION_METRICS = [
+        "request_count",
+        "success_count",
+        "error_count",
+        "median_latency_ms",
+        "p95_latency_ms",
+        "median_ttft_ms",
+        "total_input_tokens",
+        "total_output_tokens",
+        "median_output_tokens_per_second",
+        "cache_hit_ratio",
+    ]
+
+    VARIANT_METRICS = [
+        "session_count",
+        "session_success_rate",
+        "median_session_duration_minutes",
+        "median_latency_ms",
+        "p95_latency_ms",
+        "median_ttft_ms",
+    ]
+
+    EXPERIMENT_METRICS = [
+        "variant_count",
+        "total_session_count",
+        "total_request_count",
+        "median_latency_ms",
+        "p95_latency_ms",
+    ]
+
+    def __init__(self, session: AsyncSession):
+        self.session = session
+        self.rollup_repo = MetricRollupRepository()
+
+    def _percentile(self, values: List[float], percentile: float) -> Optional[float]:
+        """Compute percentile safely.
+
+        Args:
+            values: List of values
+            percentile: Percentile to compute (e.g., 95 for p95)
+
+        Returns:
+            Percentile value or None if empty
+        """
+        if not values:
+            return None
+        return float(np.percentile(values, percentile))
+
+    def _median(self, values: List[float]) -> Optional[float]:
+        """Compute median safely.
+
+        Args:
+            values: List of values
+
+        Returns:
+            Median value or None if empty
+        """
+        return self._percentile(values, 50)
+
+    def _handle_empty_window(self, scope_type: RollupScopeType, scope_id: str) -> None:
+        """Handle empty rollup window safely.
+
+        Empty windows are logged but don't corrupt aggregates.
+        """
+        logger.info(
+            "Empty rollup window",
+            scope_type=scope_type.value,
+            scope_id=scope_id,
+        )
+
+    async def compute_session_rollups(self, session_id: UUID) -> List[MetricRollup]:
+        """Compute all rollup metrics for a session.
+
+        Args:
+            session_id: Session to compute rollups for
+
+        Returns:
+            List of computed MetricRollup models
+        """
+        # Fetch all requests for this session
+        result = await self.session.execute(
+            select(RequestModel).where(RequestModel.session_id == str(session_id))
+        )
+        requests = list(result.scalars().all())
+
+        if not requests:
+            self._handle_empty_window(RollupScopeType.SESSION, str(session_id))
+            return []
+
+        # Extract values for computation
+        latencies = [r.latency_ms for r in requests if r.latency_ms is not None]
+        ttfts = [r.ttft_ms for r in requests if r.ttft_ms is not None]
+        output_tokens = [r.output_tokens for r in requests if r.output_tokens is not None]
+        input_tokens = [r.input_tokens for r in requests if r.input_tokens is not None]
+        cached_tokens = [r.cached_input_tokens for r in requests if r.cached_input_tokens is not None]
+        
+        # Compute token-per-second for each request
+        tokens_per_second = []
+        for r in requests:
+            if r.output_tokens and r.latency_ms and r.latency_ms > 0:
+                tps = (r.output_tokens / r.latency_ms) * 1000
+                tokens_per_second.append(tps)
+
+        # Count successes/errors
+        success_count = sum(1 for r in requests if r.status == RequestStatus.SUCCESS)
+        error_count = sum(1 for r in requests if r.status == RequestStatus.ERROR)
+
+        # Cache hit ratio (requests with cached tokens / total requests with input)
+        cache_hits = sum(1 for r in requests if r.cached_input_tokens and r.cached_input_tokens > 0)
+        total_with_input = sum(1 for r in requests if r.input_tokens and r.input_tokens > 0)
+        cache_hit_ratio = cache_hits / total_with_input if total_with_input > 0 else 0.0
+
+        # Build metrics
+        metrics = {
+            "request_count": float(len(requests)),
+            "success_count": float(success_count),
+            "error_count": float(error_count),
+            "total_input_tokens": float(sum(input_tokens)) if input_tokens else 0.0,
+            "total_output_tokens": float(sum(output_tokens)) if output_tokens else 0.0,
+            "cache_hit_ratio": cache_hit_ratio,
+        }
+
+        if latencies:
+            metrics["median_latency_ms"] = self._median(latencies)
+            metrics["p95_latency_ms"] = self._percentile(latencies, 95)
+        
+        if ttfts:
+            metrics["median_ttft_ms"] = self._median(ttfts)
+        
+        if tokens_per_second:
+            metrics["median_output_tokens_per_second"] = self._median(tokens_per_second)
+
+        # Persist rollups
+        rollups = []
+        now = datetime.utcnow()
+        for name, value in metrics.items():
+            if value is not None:
+                rollup = MetricRollup(
+                    scope_type=RollupScopeType.SESSION,
+                    scope_id=session_id,
+                    metric_name=name,
+                    metric_value=value,
+                    computed_at=now,
+                )
+                await self.rollup_repo.upsert(self.session, rollup)
+                rollups.append(rollup)
+
+        logger.info(
+            "Computed session rollups",
+            session_id=str(session_id),
+            metric_count=len(rollups),
+        )
+
+        return rollups
+
+    async def compute_variant_rollups(self, variant_id: UUID) -> List[MetricRollup]:
+        """Compute rollup metrics for a variant across all sessions.
+
+        Args:
+            variant_id: Variant to compute rollups for
+
+        Returns:
+            List of computed MetricRollup models
+        """
+        # Get all sessions for this variant
+        result = await self.session.execute(
+            select(SessionModel).where(SessionModel.variant_id == str(variant_id))
+        )
+        sessions = list(result.scalars().all())
+
+        if not sessions:
+            self._handle_empty_window(RollupScopeType.VARIANT, str(variant_id))
+            return []
+
+        # Get session-level rollups
+        session_rollups = await self.session.execute(
+            select(MetricRollupModel).where(
+                MetricRollupModel.scope_type == RollupScopeType.SESSION,
+                MetricRollupModel.scope_id.in_([s.session_id for s in sessions]),
+            )
+        )
+        rollup_models = list(session_rollups.scalars().all())
+
+        # Aggregate session-level metrics
+        latencies = []
+        ttfts = []
+        durations = []
+        success_count = 0
+
+        for rm in rollup_models:
+            if rm.metric_name == "median_latency_ms" and rm.metric_value:
+                latencies.append(rm.metric_value)
+            elif rm.metric_name == "median_ttft_ms" and rm.metric_value:
+                ttfts.append(rm.metric_value)
+        
+        for s in sessions:
+            if s.ended_at and s.started_at:
+                duration = (s.ended_at - s.started_at).total_seconds() / 60.0
+                durations.append(duration)
+            if s.status.value in ["completed"]:
+                success_count += 1
+
+        success_rate = success_count / len(sessions) if sessions else 0.0
+
+        metrics = {
+            "session_count": float(len(sessions)),
+            "session_success_rate": success_rate,
+        }
+
+        if latencies:
+            metrics["median_latency_ms"] = self._median(latencies)
+            metrics["p95_latency_ms"] = self._percentile(latencies, 95)
+        
+        if ttfts:
+            metrics["median_ttft_ms"] = self._median(ttfts)
+        
+        if durations:
+            metrics["median_session_duration_minutes"] = self._median(durations)
+
+        # Persist
+        rollups = []
+        now = datetime.utcnow()
+        for name, value in metrics.items():
+            if value is not None:
+                rollup = MetricRollup(
+                    scope_type=RollupScopeType.VARIANT,
+                    scope_id=variant_id,
+                    metric_name=name,
+                    metric_value=value,
+                    computed_at=now,
+                )
+                await self.rollup_repo.upsert(self.session, rollup)
+                rollups.append(rollup)
+
+        logger.info(
+            "Computed variant rollups",
+            variant_id=str(variant_id),
+            metric_count=len(rollups),
+        )
+
+        return rollups
+
+    async def compute_experiment_rollups(self, experiment_id: UUID) -> List[MetricRollup]:
+        """Compute rollup metrics for an experiment across all variants.
+
+        Args:
+            experiment_id: Experiment to compute rollups for
+
+        Returns:
+            List of computed MetricRollup models
+        """
+        # Get all sessions for this experiment
+        result = await self.session.execute(
+            select(SessionModel).where(SessionModel.experiment_id == str(experiment_id))
+        )
+        sessions = list(result.scalars().all())
+
+        if not sessions:
+            self._handle_empty_window(RollupScopeType.EXPERIMENT, str(experiment_id))
+            return []
+
+        # Get variant IDs
+        variant_ids = list(set(s.variant_id for s in sessions))
+        unique_variants = len(variant_ids)
+
+        # Get all requests for this experiment
+        req_result = await self.session.execute(
+            select(RequestModel).where(RequestModel.experiment_id == str(experiment_id))
+        )
+        requests = list(req_result.scalars().all())
+
+        # Aggregate
+        latencies = [r.latency_ms for r in requests if r.latency_ms is not None]
+
+        metrics = {
+            "variant_count": float(unique_variants),
+            "total_session_count": float(len(sessions)),
+            "total_request_count": float(len(requests)),
+        }
+
+        if latencies:
+            metrics["median_latency_ms"] = self._median(latencies)
+            metrics["p95_latency_ms"] = self._percentile(latencies, 95)
+
+        # Persist
+        rollups = []
+        now = datetime.utcnow()
+        for name, value in metrics.items():
+            if value is not None:
+                rollup = MetricRollup(
+                    scope_type=RollupScopeType.EXPERIMENT,
+                    scope_id=experiment_id,
+                    metric_name=name,
+                    metric_value=value,
+                    computed_at=now,
+                )
+                await self.rollup_repo.upsert(self.session, rollup)
+                rollups.append(rollup)
+
+        logger.info(
+            "Computed experiment rollups",
+            experiment_id=str(experiment_id),
+            metric_count=len(rollups),
+        )
+
+        return rollups
diff --git a/src/reporting/__init__.py b/src/reporting/__init__.py
new file mode 100644
index 0000000..5aa298d
--- /dev/null
+++ b/src/reporting/__init__.py
@@ -0,0 +1 @@
+"""Reporting and comparison services."""
diff --git a/src/reporting/__pycache__/__init__.cpython-312.pyc b/src/reporting/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..0dfe6e0
Binary files /dev/null and b/src/reporting/__pycache__/__init__.cpython-312.pyc differ
diff --git a/tests/__init__.py b/tests/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/tests/__pycache__/__init__.cpython-312.pyc b/tests/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..1cedebc
Binary files /dev/null and b/tests/__pycache__/__init__.cpython-312.pyc differ
diff --git a/tests/__pycache__/conftest.cpython-312-pytest-9.0.2.pyc b/tests/__pycache__/conftest.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..5c83005
Binary files /dev/null and b/tests/__pycache__/conftest.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/__pycache__/test_fixture_debug.cpython-312-pytest-9.0.2.pyc b/tests/__pycache__/test_fixture_debug.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..0197a2d
Binary files /dev/null and b/tests/__pycache__/test_fixture_debug.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/__pycache__/test_fixture_debug2.cpython-312-pytest-9.0.2.pyc b/tests/__pycache__/test_fixture_debug2.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..6ac348a
Binary files /dev/null and b/tests/__pycache__/test_fixture_debug2.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/integration/__init__.py b/tests/integration/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/tests/integration/__pycache__/__init__.cpython-312.pyc b/tests/integration/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..5d51282
Binary files /dev/null and b/tests/integration/__pycache__/__init__.cpython-312.pyc differ
diff --git a/tests/integration/__pycache__/conftest.cpython-312-pytest-9.0.2.pyc b/tests/integration/__pycache__/conftest.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..684d633
Binary files /dev/null and b/tests/integration/__pycache__/conftest.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/integration/__pycache__/conftest.cpython-312.pyc b/tests/integration/__pycache__/conftest.cpython-312.pyc
new file mode 100644
index 0000000..880752a
Binary files /dev/null and b/tests/integration/__pycache__/conftest.cpython-312.pyc differ
diff --git a/tests/integration/__pycache__/test_request_repository.cpython-312-pytest-9.0.2.pyc b/tests/integration/__pycache__/test_request_repository.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..41ed5cf
Binary files /dev/null and b/tests/integration/__pycache__/test_request_repository.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/integration/__pycache__/test_request_repository.cpython-312.pyc b/tests/integration/__pycache__/test_request_repository.cpython-312.pyc
new file mode 100644
index 0000000..8b63c1d
Binary files /dev/null and b/tests/integration/__pycache__/test_request_repository.cpython-312.pyc differ
diff --git a/tests/integration/__pycache__/test_rollups.cpython-312-pytest-9.0.2.pyc b/tests/integration/__pycache__/test_rollups.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..6d4a571
Binary files /dev/null and b/tests/integration/__pycache__/test_rollups.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/integration/__pycache__/test_rollups.cpython-312.pyc b/tests/integration/__pycache__/test_rollups.cpython-312.pyc
new file mode 100644
index 0000000..29ea8ea
Binary files /dev/null and b/tests/integration/__pycache__/test_rollups.cpython-312.pyc differ
diff --git a/tests/integration/__pycache__/test_session_service.cpython-312-pytest-9.0.2.pyc b/tests/integration/__pycache__/test_session_service.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..51bafd1
Binary files /dev/null and b/tests/integration/__pycache__/test_session_service.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/integration/__pycache__/test_session_service.cpython-312.pyc b/tests/integration/__pycache__/test_session_service.cpython-312.pyc
new file mode 100644
index 0000000..8f313db
Binary files /dev/null and b/tests/integration/__pycache__/test_session_service.cpython-312.pyc differ
diff --git a/tests/integration/conftest.py b/tests/integration/conftest.py
new file mode 100644
index 0000000..0931f3d
--- /dev/null
+++ b/tests/integration/conftest.py
@@ -0,0 +1,162 @@
+"""Pytest fixtures for integration tests."""
+import pytest
+import asyncio
+from typing import AsyncGenerator
+
+from sqlalchemy.ext.asyncio import AsyncSession, async_sessionmaker, create_async_engine
+from sqlalchemy.pool import StaticPool
+
+from benchmark_core.db.connection import Base
+from benchmark_core.db.models import (
+    ProviderModel,
+    HarnessProfileModel,
+    VariantModel,
+    ExperimentModel,
+    TaskCardModel,
+    SessionModel,
+    RequestModel,
+    MetricRollupModel,
+)
+
+
+@pytest.fixture(scope="session")
+def event_loop():
+    """Create event loop for async tests."""
+    loop = asyncio.get_event_loop_policy().new_event_loop()
+    yield loop
+    loop.close()
+
+
+@pytest.fixture
+async def db_session() -> AsyncGenerator[AsyncSession, None]:
+    """Create test database session with in-memory SQLite.
+    
+    Uses StaticPool to ensure the same connection is reused for the session,
+    keeping the in-memory database alive throughout the test.
+    """
+    engine = create_async_engine(
+        "sqlite+aiosqlite:///:memory:",
+        connect_args={"check_same_thread": False},
+        poolclass=StaticPool,  # Critical: keeps single connection alive
+        echo=False,
+    )
+    
+    # Create all tables
+    async with engine.begin() as conn:
+        await conn.run_sync(Base.metadata.create_all)
+    
+    # Create session factory
+    async_session_maker = async_sessionmaker(
+        engine,
+        class_=AsyncSession,
+        expire_on_commit=False,
+    )
+    
+    # Yield session for test
+    async with async_session_maker() as session:
+        yield session
+    
+    # Cleanup
+    await engine.dispose()
+
+
+@pytest.fixture
+async def sample_provider(db_session: AsyncSession) -> ProviderModel:
+    """Create sample provider."""
+    provider = ProviderModel(
+        name="test-provider",
+        route_name="test-route",
+        protocol_surface="anthropic_messages",
+    )
+    db_session.add(provider)
+    await db_session.flush()
+    await db_session.refresh(provider)
+    return provider
+
+
+@pytest.fixture
+async def sample_harness_profile(db_session: AsyncSession) -> HarnessProfileModel:
+    """Create sample harness profile."""
+    profile = HarnessProfileModel(
+        name="test-harness",
+        protocol_surface="anthropic_messages",
+        base_url_env="ANTHROPIC_BASE_URL",
+        api_key_env="ANTHROPIC_API_KEY",
+        model_env="ANTHROPIC_MODEL",
+    )
+    db_session.add(profile)
+    await db_session.flush()
+    await db_session.refresh(profile)
+    return profile
+
+
+@pytest.fixture
+async def sample_experiment(db_session: AsyncSession) -> ExperimentModel:
+    """Create sample experiment."""
+    exp = ExperimentModel(
+        name="test-experiment",
+        description="Test experiment for integration tests",
+    )
+    db_session.add(exp)
+    await db_session.flush()
+    await db_session.refresh(exp)
+    return exp
+
+
+@pytest.fixture
+async def sample_task_card(db_session: AsyncSession) -> TaskCardModel:
+    """Create sample task card."""
+    tc = TaskCardModel(
+        name="test-task",
+        goal="Test goal",
+        stop_condition="Test stop condition",
+    )
+    db_session.add(tc)
+    await db_session.flush()
+    await db_session.refresh(tc)
+    return tc
+
+
+@pytest.fixture
+async def sample_variant(
+    db_session: AsyncSession,
+    sample_provider: ProviderModel,
+    sample_harness_profile: HarnessProfileModel,
+) -> VariantModel:
+    """Create sample variant."""
+    variant = VariantModel(
+        name="test-variant",
+        provider_id=sample_provider.provider_id,
+        model_alias="test-model",
+        harness_profile_id=sample_harness_profile.harness_profile_id,
+    )
+    db_session.add(variant)
+    await db_session.flush()
+    await db_session.refresh(variant)
+    return variant
+
+
+@pytest.fixture
+async def sample_session(
+    db_session: AsyncSession,
+    sample_experiment: ExperimentModel,
+    sample_variant: VariantModel,
+    sample_task_card: TaskCardModel,
+    sample_harness_profile: HarnessProfileModel,
+) -> SessionModel:
+    """Create sample session."""
+    from benchmark_core.models import SessionStatus
+    from datetime import datetime
+    
+    sess = SessionModel(
+        experiment_id=sample_experiment.experiment_id,
+        variant_id=sample_variant.variant_id,
+        task_card_id=sample_task_card.task_card_id,
+        harness_profile_id=sample_harness_profile.harness_profile_id,
+        status=SessionStatus.PENDING,
+        started_at=datetime.utcnow(),
+    )
+    db_session.add(sess)
+    await db_session.flush()
+    await db_session.refresh(sess)
+    return sess
diff --git a/tests/integration/test_request_repository.py b/tests/integration/test_request_repository.py
new file mode 100644
index 0000000..0d0e301
--- /dev/null
+++ b/tests/integration/test_request_repository.py
@@ -0,0 +1,144 @@
+"""Integration tests for request repository."""
+import pytest
+from datetime import datetime, timedelta
+from uuid import uuid4
+
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.models import Request, RequestStatus
+from benchmark_core.repositories.request_repository import RequestRepository
+from benchmark_core.db.models import RequestModel
+
+
+class TestRequestCreation:
+    """Tests for request creation."""
+
+    @pytest.mark.asyncio
+    async def test_create_request(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should create request successfully."""
+        repo = RequestRepository()
+        
+        request = Request(
+            session_id=sample_session.session_id,
+            litellm_call_id="call-test-001",
+            model="gpt-4",
+            started_at=datetime.utcnow(),
+            latency_ms=1234.5,
+            input_tokens=100,
+            output_tokens=200,
+        )
+        
+        model = await repo.create(db_session, request)
+        
+        assert model.request_id is not None
+        assert model.litellm_call_id == "call-test-001"
+        assert model.latency_ms == 1234.5
+
+    @pytest.mark.asyncio
+    async def test_get_by_litellm_call_id(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should find request by litellm_call_id."""
+        repo = RequestRepository()
+        
+        # Create request
+        request = Request(
+            session_id=sample_session.session_id,
+            litellm_call_id="call-unique-001",
+            model="gpt-4",
+        )
+        await repo.create(db_session, request)
+        
+        # Find by call ID
+        found = await repo.get_by_litellm_call_id(db_session, "call-unique-001")
+        
+        assert found is not None
+        assert found.litellm_call_id == "call-unique-001"
+
+    @pytest.mark.asyncio
+    async def test_exists_by_litellm_call_id(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should check existence correctly."""
+        repo = RequestRepository()
+        
+        # Create request
+        request = Request(
+            session_id=sample_session.session_id,
+            litellm_call_id="call-exists-001",
+            model="gpt-4",
+        )
+        await repo.create(db_session, request)
+        
+        # Check exists
+        exists = await repo.exists_by_litellm_call_id(db_session, "call-exists-001")
+        assert exists is True
+        
+        # Check non-exists
+        not_exists = await repo.exists_by_litellm_call_id(db_session, "call-nonexistent")
+        assert not_exists is False
+
+
+class TestRequestQueries:
+    """Tests for request queries."""
+
+    @pytest.mark.asyncio
+    async def test_get_by_session(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should get all requests for a session."""
+        repo = RequestRepository()
+        
+        # Create multiple requests
+        for i in range(3):
+            request = Request(
+                session_id=sample_session.session_id,
+                litellm_call_id=f"call-session-{i}",
+                model="gpt-4",
+            )
+            await repo.create(db_session, request)
+        
+        # Query by session
+        requests = await repo.get_by_session(db_session, sample_session.session_id)
+        
+        assert len(requests) == 3
+
+    @pytest.mark.asyncio
+    async def test_get_by_time_window(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should get requests within time window."""
+        repo = RequestRepository()
+        
+        now = datetime.utcnow()
+        
+        # Create request in window
+        request_in = Request(
+            session_id=sample_session.session_id,
+            litellm_call_id="call-in-window",
+            model="gpt-4",
+            started_at=now,
+        )
+        await repo.create(db_session, request_in)
+        
+        # Query window
+        requests = await repo.get_by_time_window(
+            db_session,
+            start_time=now - timedelta(hours=1),
+            end_time=now + timedelta(hours=1),
+        )
+        
+        assert len(requests) >= 1
+        assert any(r.litellm_call_id == "call-in-window" for r in requests)
diff --git a/tests/integration/test_rollups.py b/tests/integration/test_rollups.py
new file mode 100644
index 0000000..93e3d1d
--- /dev/null
+++ b/tests/integration/test_rollups.py
@@ -0,0 +1,194 @@
+"""Integration tests for metric rollups."""
+import pytest
+from datetime import datetime, timedelta
+from uuid import uuid4
+
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.models import (
+    Request,
+    RequestStatus,
+    MetricRollup,
+    RollupScopeType,
+    SessionStatus,
+)
+from benchmark_core.db.models import RequestModel, SessionModel
+from benchmark_core.repositories.metric_rollup_repository import MetricRollupRepository
+from collectors.rollups import MetricRollupService
+
+
+class TestSessionRollups:
+    """Tests for session-level rollups."""
+
+    @pytest.mark.asyncio
+    async def test_compute_session_rollups(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should compute session rollups correctly."""
+        from benchmark_core.repositories.request_repository import RequestRepository
+        
+        # Create some requests
+        repo = RequestRepository()
+        now = datetime.utcnow()
+        
+        for i in range(5):
+            request = Request(
+                session_id=sample_session.session_id,
+                litellm_call_id=f"rollup-call-{i}",
+                model="gpt-4",
+                started_at=now - timedelta(minutes=i),
+                latency_ms=100.0 + i * 50,
+                input_tokens=100,
+                output_tokens=50,
+                status=RequestStatus.SUCCESS if i < 4 else RequestStatus.ERROR,
+            )
+            await repo.create(db_session, request)
+        
+        # Compute rollups
+        service = MetricRollupService(db_session)
+        rollups = await service.compute_session_rollups(sample_session.session_id)
+        
+        assert len(rollups) > 0
+        
+        # Verify metrics exist
+        rollup_repo = MetricRollupRepository()
+        session_rollups = await rollup_repo.get_by_session(
+            db_session, str(sample_session.session_id)
+        )
+        
+        metric_names = [r.metric_name for r in session_rollups]
+        assert "request_count" in metric_names
+        assert "success_count" in metric_names
+        assert "error_count" in metric_names
+
+    @pytest.mark.asyncio
+    async def test_session_median_latency(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should compute median latency correctly."""
+        from benchmark_core.repositories.request_repository import RequestRepository
+        
+        repo = RequestRepository()
+        now = datetime.utcnow()
+        latencies = [100.0, 200.0, 300.0, 400.0, 500.0]
+        
+        for i, lat in enumerate(latencies):
+            request = Request(
+                session_id=sample_session.session_id,
+                litellm_call_id=f"median-call-{i}",
+                model="gpt-4",
+                started_at=now,
+                latency_ms=lat,
+            )
+            await repo.create(db_session, request)
+        
+        # Compute rollups
+        service = MetricRollupService(db_session)
+        await service.compute_session_rollups(sample_session.session_id)
+        
+        # Get median
+        rollup_repo = MetricRollupRepository()
+        median = await rollup_repo.get_by_scope_and_name(
+            db_session,
+            RollupScopeType.SESSION,
+            str(sample_session.session_id),
+            "median_latency_ms",
+        )
+        
+        assert median is not None
+        # Median of [100, 200, 300, 400, 500] is 300
+        assert median.metric_value == 300.0
+
+
+class TestEmptyWindowHandling:
+    """Tests for empty window handling."""
+
+    @pytest.mark.asyncio
+    async def test_empty_session_returns_empty_rollups(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should handle session with no requests gracefully."""
+        service = MetricRollupService(db_session)
+        
+        # Session with no requests
+        rollups = await service.compute_session_rollups(sample_session.session_id)
+        
+        # Should return empty list, not raise
+        assert rollups == []
+
+    @pytest.mark.asyncio
+    async def test_empty_variant_returns_empty_rollups(
+        self,
+        db_session: AsyncSession,
+        sample_variant,
+    ):
+        """Should handle variant with no sessions gracefully."""
+        service = MetricRollupService(db_session)
+        
+        rollups = await service.compute_variant_rollups(sample_variant.variant_id)
+        
+        assert rollups == []
+
+
+class TestRollupUpsert:
+    """Tests for rollup upsert behavior."""
+
+    @pytest.mark.asyncio
+    async def test_upsert_creates_new(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should create new rollup on first compute."""
+        repo = MetricRollupRepository()
+        
+        rollup = MetricRollup(
+            scope_type=RollupScopeType.SESSION,
+            scope_id=sample_session.session_id,
+            metric_name="test_metric",
+            metric_value=42.0,
+        )
+        
+        result = await repo.upsert(db_session, rollup)
+        
+        assert result.metric_value == 42.0
+
+    @pytest.mark.asyncio
+    async def test_upsert_updates_existing(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should update existing rollup on recompute."""
+        repo = MetricRollupRepository()
+        
+        # Create first
+        rollup1 = MetricRollup(
+            scope_type=RollupScopeType.SESSION,
+            scope_id=sample_session.session_id,
+            metric_name="test_metric",
+            metric_value=42.0,
+        )
+        await repo.upsert(db_session, rollup1)
+        
+        # Update with same scope
+        rollup2 = MetricRollup(
+            scope_type=RollupScopeType.SESSION,
+            scope_id=sample_session.session_id,
+            metric_name="test_metric",
+            metric_value=84.0,
+        )
+        result = await repo.upsert(db_session, rollup2)
+        
+        # Should update, not create duplicate
+        rollups = await repo.get_by_session(db_session, str(sample_session.session_id))
+        test_rollups = [r for r in rollups if r.metric_name == "test_metric"]
+        
+        assert len(test_rollups) == 1
+        assert test_rollups[0].metric_value == 84.0
diff --git a/tests/integration/test_session_service.py b/tests/integration/test_session_service.py
new file mode 100644
index 0000000..f5c8ba2
--- /dev/null
+++ b/tests/integration/test_session_service.py
@@ -0,0 +1,161 @@
+"""Integration tests for session service."""
+import pytest
+from datetime import datetime
+from uuid import uuid4
+
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from benchmark_core.models import Session, SessionStatus
+from benchmark_core.services.session_service import SessionService
+from benchmark_core.repositories.session_repository import (
+    DuplicateSessionError,
+    SessionRepository,
+)
+from benchmark_core.db.models import SessionModel
+
+
+class TestSessionCreation:
+    """Tests for session creation."""
+
+    @pytest.mark.asyncio
+    async def test_create_session_success(
+        self,
+        db_session: AsyncSession,
+        sample_experiment,
+        sample_variant,
+        sample_task_card,
+        sample_harness_profile,
+    ):
+        """Should create session successfully."""
+        service = SessionService(db_session)
+        
+        session_id = uuid4()
+        session = await service.create_session(
+            session_id=session_id,
+            experiment_id=sample_experiment.experiment_id,
+            variant_id=sample_variant.variant_id,
+            task_card_id=sample_task_card.task_card_id,
+            harness_profile_id=sample_harness_profile.harness_profile_id,
+            operator_label="test-operator",
+        )
+        
+        assert session.session_id == session_id
+        assert session.status == SessionStatus.PENDING
+        assert session.operator_label == "test-operator"
+
+    @pytest.mark.asyncio
+    async def test_create_session_with_git_metadata(
+        self,
+        db_session: AsyncSession,
+        sample_experiment,
+        sample_variant,
+        sample_task_card,
+        sample_harness_profile,
+    ):
+        """Should capture git metadata."""
+        service = SessionService(db_session)
+        
+        session = await service.create_session(
+            session_id=uuid4(),
+            experiment_id=sample_experiment.experiment_id,
+            variant_id=sample_variant.variant_id,
+            task_card_id=sample_task_card.task_card_id,
+            harness_profile_id=sample_harness_profile.harness_profile_id,
+            git_branch="feature/test",
+            git_commit_sha="abc123def456",
+            git_dirty=True,
+        )
+        
+        assert session.git_branch == "feature/test"
+        assert session.git_commit_sha == "abc123def456"
+        assert session.git_dirty is True
+
+    @pytest.mark.asyncio
+    async def test_duplicate_session_id_rejected(
+        self,
+        db_session: AsyncSession,
+        sample_experiment,
+        sample_variant,
+        sample_task_card,
+        sample_harness_profile,
+    ):
+        """Should reject duplicate session_id."""
+        service = SessionService(db_session)
+        
+        session_id = uuid4()
+        
+        # Create first session
+        await service.create_session(
+            session_id=session_id,
+            experiment_id=sample_experiment.experiment_id,
+            variant_id=sample_variant.variant_id,
+            task_card_id=sample_task_card.task_card_id,
+            harness_profile_id=sample_harness_profile.harness_profile_id,
+        )
+        
+        # Attempt to create duplicate
+        with pytest.raises(DuplicateSessionError):
+            await service.create_session(
+                session_id=session_id,
+                experiment_id=sample_experiment.experiment_id,
+                variant_id=sample_variant.variant_id,
+                task_card_id=sample_task_card.task_card_id,
+                harness_profile_id=sample_harness_profile.harness_profile_id,
+            )
+
+
+class TestSessionFinalization:
+    """Tests for session finalization."""
+
+    @pytest.mark.asyncio
+    async def test_finalize_session_completed(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should finalize session as completed."""
+        service = SessionService(db_session)
+        
+        ended_at = datetime.utcnow()
+        result = await service.finalize_session(
+            session_id=sample_session.session_id,
+            status=SessionStatus.COMPLETED,
+            ended_at=ended_at,
+        )
+        
+        assert result is not None
+        assert result.status == SessionStatus.COMPLETED
+        assert result.ended_at == ended_at
+
+    @pytest.mark.asyncio
+    async def test_finalize_session_aborted(
+        self,
+        db_session: AsyncSession,
+        sample_session,
+    ):
+        """Should finalize session as aborted."""
+        service = SessionService(db_session)
+        
+        result = await service.finalize_session(
+            session_id=sample_session.session_id,
+            status=SessionStatus.ABORTED,
+        )
+        
+        assert result is not None
+        assert result.status == SessionStatus.ABORTED
+        assert result.ended_at is not None
+
+    @pytest.mark.asyncio
+    async def test_finalize_nonexistent_session(
+        self,
+        db_session: AsyncSession,
+    ):
+        """Should return None for nonexistent session."""
+        service = SessionService(db_session)
+        
+        result = await service.finalize_session(
+            session_id=uuid4(),
+            status=SessionStatus.COMPLETED,
+        )
+        
+        assert result is None
diff --git a/tests/unit/__init__.py b/tests/unit/__init__.py
new file mode 100644
index 0000000..e69de29
diff --git a/tests/unit/__pycache__/__init__.cpython-312.pyc b/tests/unit/__pycache__/__init__.cpython-312.pyc
new file mode 100644
index 0000000..72acd60
Binary files /dev/null and b/tests/unit/__pycache__/__init__.cpython-312.pyc differ
diff --git a/tests/unit/__pycache__/test_litellm_collector.cpython-312-pytest-9.0.2.pyc b/tests/unit/__pycache__/test_litellm_collector.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..bd1641d
Binary files /dev/null and b/tests/unit/__pycache__/test_litellm_collector.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/unit/__pycache__/test_litellm_collector.cpython-312.pyc b/tests/unit/__pycache__/test_litellm_collector.cpython-312.pyc
new file mode 100644
index 0000000..2e63fea
Binary files /dev/null and b/tests/unit/__pycache__/test_litellm_collector.cpython-312.pyc differ
diff --git a/tests/unit/__pycache__/test_models.cpython-312-pytest-9.0.2.pyc b/tests/unit/__pycache__/test_models.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..d43937a
Binary files /dev/null and b/tests/unit/__pycache__/test_models.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/unit/__pycache__/test_models.cpython-312.pyc b/tests/unit/__pycache__/test_models.cpython-312.pyc
new file mode 100644
index 0000000..37e0541
Binary files /dev/null and b/tests/unit/__pycache__/test_models.cpython-312.pyc differ
diff --git a/tests/unit/__pycache__/test_rollups.cpython-312-pytest-9.0.2.pyc b/tests/unit/__pycache__/test_rollups.cpython-312-pytest-9.0.2.pyc
new file mode 100644
index 0000000..d18fa62
Binary files /dev/null and b/tests/unit/__pycache__/test_rollups.cpython-312-pytest-9.0.2.pyc differ
diff --git a/tests/unit/__pycache__/test_rollups.cpython-312.pyc b/tests/unit/__pycache__/test_rollups.cpython-312.pyc
new file mode 100644
index 0000000..1bc4275
Binary files /dev/null and b/tests/unit/__pycache__/test_rollups.cpython-312.pyc differ
diff --git a/tests/unit/test_litellm_collector.py b/tests/unit/test_litellm_collector.py
new file mode 100644
index 0000000..c4fe664
--- /dev/null
+++ b/tests/unit/test_litellm_collector.py
@@ -0,0 +1,182 @@
+"""Unit tests for LiteLLM collector."""
+import pytest
+from datetime import datetime
+from uuid import uuid4
+from unittest.mock import AsyncMock, MagicMock, patch
+
+from benchmark_core.models import Request, RequestStatus
+from benchmark_core.repositories.request_repository import RequestRepository
+from benchmark_core.repositories.session_repository import SessionRepository
+
+
+class TestMissingFieldDetection:
+    """Tests for missing field detection."""
+
+    def test_missing_litellm_call_id(self):
+        """Should detect missing litellm_call_id."""
+        raw_data = {"model": "gpt-4", "started_at": datetime.utcnow()}
+        required = ["litellm_call_id", "model", "started_at"]
+        missing = [f for f in required if f not in raw_data or raw_data[f] is None]
+        assert "litellm_call_id" in missing
+
+    def test_missing_model(self):
+        """Should detect missing model."""
+        raw_data = {"litellm_call_id": "call-123", "started_at": datetime.utcnow()}
+        required = ["litellm_call_id", "model", "started_at"]
+        missing = [f for f in required if f not in raw_data or raw_data[f] is None]
+        assert "model" in missing
+
+    def test_all_fields_present(self):
+        """Should pass when all required fields present."""
+        raw_data = {
+            "litellm_call_id": "call-123",
+            "model": "gpt-4",
+            "started_at": datetime.utcnow(),
+        }
+        required = ["litellm_call_id", "model", "started_at"]
+        missing = [f for f in required if f not in raw_data or raw_data[f] is None]
+        assert len(missing) == 0
+
+
+class TestCorrelationKeyExtraction:
+    """Tests for correlation key extraction."""
+
+    def test_extract_direct_session_id(self):
+        """Should extract session_id from top-level field."""
+        raw_data = {
+            "session_id": str(uuid4()),
+            "litellm_call_id": "call-123",
+            "model": "gpt-4",
+        }
+        
+        correlation_keys = ["session_id", "experiment_id", "variant_id", "provider_id"]
+        keys = {}
+        for key in correlation_keys:
+            value = raw_data.get(key)
+            if value is not None:
+                keys[key] = str(value)
+            else:
+                keys[key] = None
+        
+        assert keys["session_id"] == raw_data["session_id"]
+        assert keys["experiment_id"] is None
+
+    def test_extract_from_tags(self):
+        """Should extract correlation keys from tags."""
+        session_id = str(uuid4())
+        raw_data = {
+            "litellm_call_id": "call-123",
+            "model": "gpt-4",
+            "tags": {
+                "session_id": session_id,
+                "experiment_id": str(uuid4()),
+            },
+        }
+        
+        correlation_keys = ["session_id", "experiment_id", "variant_id", "provider_id"]
+        keys = {}
+        for key in correlation_keys:
+            keys[key] = None
+        
+        tags = raw_data.get("tags", {})
+        if isinstance(tags, dict):
+            for key in correlation_keys:
+                if keys[key] is None and key in tags:
+                    keys[key] = str(tags[key])
+        
+        assert keys["session_id"] == session_id
+        assert keys["experiment_id"] is not None
+
+
+class TestStatusParsing:
+    """Tests for request status parsing."""
+
+    def test_parse_success(self):
+        """Should parse success status."""
+        status_map = {
+            "success": RequestStatus.SUCCESS,
+            "error": RequestStatus.ERROR,
+            "timeout": RequestStatus.TIMEOUT,
+            "cancelled": RequestStatus.CANCELLED,
+        }
+        
+        assert status_map.get("success", RequestStatus.SUCCESS) == RequestStatus.SUCCESS
+
+    def test_parse_error(self):
+        """Should parse error status."""
+        status_map = {
+            "success": RequestStatus.SUCCESS,
+            "error": RequestStatus.ERROR,
+            "timeout": RequestStatus.TIMEOUT,
+            "cancelled": RequestStatus.CANCELLED,
+        }
+        
+        assert status_map.get("error", RequestStatus.SUCCESS) == RequestStatus.ERROR
+
+    def test_parse_unknown_defaults_to_success(self):
+        """Should default unknown status to success."""
+        status_map = {
+            "success": RequestStatus.SUCCESS,
+            "error": RequestStatus.ERROR,
+            "timeout": RequestStatus.TIMEOUT,
+            "cancelled": RequestStatus.CANCELLED,
+        }
+        
+        assert status_map.get("unknown", RequestStatus.SUCCESS) == RequestStatus.SUCCESS
+
+    def test_parse_null_defaults_to_success(self):
+        """Should default null status to success."""
+        assert RequestStatus.SUCCESS  # Default value
+
+
+class TestDuplicateDetection:
+    """Tests for duplicate detection."""
+
+    @pytest.mark.asyncio
+    async def test_duplicate_call_id_rejected(self):
+        """Should reject duplicate litellm_call_id."""
+        # This would be tested with integration tests against real DB
+        # Here we test the logic concept
+        call_id = "call-123"
+        
+        # Simulating exists check returning True
+        exists = True
+        assert exists is True  # Would skip ingestion
+
+    @pytest.mark.asyncio
+    async def test_new_call_id_accepted(self):
+        """Should accept new litellm_call_id."""
+        call_id = "call-new"
+        
+        # Simulating exists check returning False
+        exists = False
+        assert exists is False  # Would proceed with ingestion
+
+
+class TestNormalization:
+    """Tests for request normalization."""
+
+    def test_normalize_latency_ms(self):
+        """Should normalize latency."""
+        raw_data = {
+            "latency_ms": 1234.56,
+        }
+        assert raw_data["latency_ms"] == 1234.56
+
+    def test_normalize_ttft_ms(self):
+        """Should normalize TTFT."""
+        raw_data = {
+            "ttft_ms": 150.0,
+        }
+        assert raw_data["ttft_ms"] == 150.0
+
+    def test_normalize_tokens(self):
+        """Should normalize token counts."""
+        raw_data = {
+            "input_tokens": 100,
+            "output_tokens": 200,
+            "cached_input_tokens": 50,
+        }
+        assert raw_data["input_tokens"] == 100
+        assert raw_data["output_tokens"] == 200
+        assert raw_data["cached_input_tokens"] == 50
diff --git a/tests/unit/test_models.py b/tests/unit/test_models.py
new file mode 100644
index 0000000..cd02dfa
--- /dev/null
+++ b/tests/unit/test_models.py
@@ -0,0 +1,159 @@
+"""Unit tests for domain models and constraints."""
+import pytest
+from datetime import datetime
+from uuid import UUID
+
+from benchmark_core.models import (
+    Provider,
+    HarnessProfile,
+    Variant,
+    Experiment,
+    TaskCard,
+    Session,
+    Request,
+    MetricRollup,
+    Artifact,
+    SessionStatus,
+    RequestStatus,
+    RollupScopeType,
+)
+
+
+class TestSessionStatus:
+    """Tests for SessionStatus enum."""
+
+    def test_all_statuses_defined(self):
+        """All expected statuses should exist."""
+        assert SessionStatus.PENDING == "pending"
+        assert SessionStatus.ACTIVE == "active"
+        assert SessionStatus.COMPLETED == "completed"
+        assert SessionStatus.ABORTED == "aborted"
+        assert SessionStatus.INVALID == "invalid"
+
+    def test_status_is_string_enum(self):
+        """Status should be string-convertible."""
+        assert SessionStatus.PENDING.value == "pending"
+        assert SessionStatus.COMPLETED == "completed"
+
+
+class TestRequestStatus:
+    """Tests for RequestStatus enum."""
+
+    def test_all_statuses_defined(self):
+        """All expected statuses should exist."""
+        assert RequestStatus.SUCCESS == "success"
+        assert RequestStatus.ERROR == "error"
+        assert RequestStatus.TIMEOUT == "timeout"
+        assert RequestStatus.CANCELLED == "cancelled"
+
+
+class TestRollupScopeType:
+    """Tests for RollupScopeType enum."""
+
+    def test_all_scopes_defined(self):
+        """All expected scopes should exist."""
+        assert RollupScopeType.REQUEST == "request"
+        assert RollupScopeType.SESSION == "session"
+        assert RollupScopeType.VARIANT == "variant"
+        assert RollupScopeType.EXPERIMENT == "experiment"
+
+
+class TestProvider:
+    """Tests for Provider model."""
+
+    def test_create_provider(self):
+        """Should create provider with defaults."""
+        provider = Provider(
+            name="test-provider",
+            route_name="test-route",
+            protocol_surface="anthropic_messages",
+        )
+        assert provider.name == "test-provider"
+        assert provider.provider_id is not None
+        assert isinstance(provider.provider_id, UUID)
+        assert provider.created_at is not None
+
+    def test_provider_with_upstream_url(self):
+        """Should accept optional upstream URL."""
+        provider = Provider(
+            name="test-provider",
+            route_name="test-route",
+            protocol_surface="openai_responses",
+            upstream_base_url="https://api.example.com",
+        )
+        assert provider.upstream_base_url == "https://api.example.com"
+
+
+class TestSession:
+    """Tests for Session model."""
+
+    def test_create_session_defaults(self):
+        """Should create session with default status."""
+        from uuid import uuid4
+        
+        session = Session(
+            experiment_id=uuid4(),
+            variant_id=uuid4(),
+            task_card_id=uuid4(),
+            harness_profile_id=uuid4(),
+        )
+        assert session.status == SessionStatus.PENDING
+        assert session.session_id is not None
+        assert session.started_at is not None
+        assert session.ended_at is None
+
+    def test_session_with_git_metadata(self):
+        """Should capture git context."""
+        from uuid import uuid4
+        
+        session = Session(
+            experiment_id=uuid4(),
+            variant_id=uuid4(),
+            task_card_id=uuid4(),
+            harness_profile_id=uuid4(),
+            git_branch="main",
+            git_commit_sha="abc123",
+            git_dirty=True,
+        )
+        assert session.git_branch == "main"
+        assert session.git_commit_sha == "abc123"
+        assert session.git_dirty is True
+
+
+class TestRequest:
+    """Tests for Request model."""
+
+    def test_create_request_defaults(self):
+        """Should create request with default status."""
+        request = Request()
+        assert request.status == RequestStatus.SUCCESS
+        assert request.request_id is not None
+
+    def test_request_with_timing(self):
+        """Should capture timing metrics."""
+        request = Request(
+            latency_ms=1234.5,
+            ttft_ms=100.0,
+            proxy_overhead_ms=5.0,
+            provider_latency_ms=1229.5,
+        )
+        assert request.latency_ms == 1234.5
+        assert request.ttft_ms == 100.0
+
+
+class TestMetricRollup:
+    """Tests for MetricRollup model."""
+
+    def test_create_rollup(self):
+        """Should create rollup with required fields."""
+        from uuid import uuid4
+        
+        rollup = MetricRollup(
+            scope_type=RollupScopeType.SESSION,
+            scope_id=uuid4(),
+            metric_name="median_latency_ms",
+            metric_value=123.45,
+        )
+        assert rollup.scope_type == RollupScopeType.SESSION
+        assert rollup.metric_name == "median_latency_ms"
+        assert rollup.metric_value == 123.45
diff --git a/tests/unit/test_rollups.py b/tests/unit/test_rollups.py
new file mode 100644
index 0000000..a4e9682
--- /dev/null
+++ b/tests/unit/test_rollups.py
@@ -0,0 +1,181 @@
+"""Unit tests for rollup calculations."""
+import pytest
+from datetime import datetime, timedelta
+from uuid import uuid4
+from unittest.mock import AsyncMock, MagicMock, patch
+
+import numpy as np
+
+from benchmark_core.models import RequestStatus, RollupScopeType
+from benchmark_core.db.models import RequestModel, SessionModel
+
+
+class TestPercentileCalculations:
+    """Tests for percentile math."""
+
+    def test_median_odd_count(self):
+        """Median of odd-length list should be middle value."""
+        values = [1.0, 2.0, 3.0, 4.0, 5.0]
+        result = float(np.percentile(values, 50))
+        assert result == 3.0
+
+    def test_median_even_count(self):
+        """Median of even-length list should be average of middle two."""
+        values = [1.0, 2.0, 3.0, 4.0]
+        result = float(np.percentile(values, 50))
+        assert result == 2.5
+
+    def test_p95_calculation(self):
+        """P95 should be at 95th percentile."""
+        # Create 100 values from 1 to 100
+        values = list(range(1, 101))
+        result = float(np.percentile(values, 95))
+        # P95 of 1-100 should be ~95
+        assert 94 <= result <= 96
+
+    def test_percentile_single_value(self):
+        """Percentile of single value should be that value."""
+        values = [42.0]
+        assert float(np.percentile(values, 50)) == 42.0
+        assert float(np.percentile(values, 95)) == 42.0
+
+    def test_percentile_empty_list_raises(self):
+        """Percentile of empty list should raise or return NaN."""
+        # NumPy 2.x raises IndexError for empty array
+        # Our implementation checks for empty before calling np.percentile
+        # Empty handling is tested in TestEmptyWindowHandling
+        assert True
+
+
+class TestSessionRollupMetrics:
+    """Tests for session-level rollup metrics."""
+
+    def test_request_count_from_list(self):
+        """Request count should equal list length."""
+        requests = [MagicMock() for _ in range(5)]
+        assert len(requests) == 5
+
+    def test_success_error_count(self):
+        """Should correctly count success and error requests."""
+        # Create mock requests with different statuses
+        requests = []
+        for i in range(10):
+            req = MagicMock()
+            req.status = RequestStatus.SUCCESS if i < 7 else RequestStatus.ERROR
+            requests.append(req)
+        
+        success_count = sum(1 for r in requests if r.status == RequestStatus.SUCCESS)
+        error_count = sum(1 for r in requests if r.status == RequestStatus.ERROR)
+        
+        assert success_count == 7
+        assert error_count == 3
+
+    def test_cache_hit_ratio(self):
+        """Should compute cache hit ratio correctly."""
+        requests = []
+        for i in range(10):
+            req = MagicMock()
+            req.input_tokens = 100
+            req.cached_input_tokens = 50 if i < 3 else 0  # 3 cache hits
+            requests.append(req)
+        
+        cache_hits = sum(1 for r in requests if r.cached_input_tokens and r.cached_input_tokens > 0)
+        total_with_input = sum(1 for r in requests if r.input_tokens and r.input_tokens > 0)
+        ratio = cache_hits / total_with_input if total_with_input > 0 else 0.0
+        
+        assert cache_hits == 3
+        assert total_with_input == 10
+        assert ratio == 0.3
+
+    def test_tokens_per_second_calculation(self):
+        """Should compute output tokens per second."""
+        # Request with 1000 output tokens, 2000ms latency
+        output_tokens = 1000
+        latency_ms = 2000
+        
+        tokens_per_second = (output_tokens / latency_ms) * 1000
+        
+        assert tokens_per_second == 500.0
+
+    def test_latency_aggregation(self):
+        """Should extract latencies from requests."""
+        latencies = [100.0, 200.0, 150.0, 300.0, 250.0]
+        
+        median = float(np.percentile(latencies, 50))
+        p95 = float(np.percentile(latencies, 95))
+        
+        assert median == 200.0
+        # P95 of these 5 values
+        assert p95 >= 250.0
+
+
+class TestVariantRollupMetrics:
+    """Tests for variant-level rollup metrics."""
+
+    def test_session_success_rate(self):
+        """Should compute session success rate."""
+        sessions = []
+        for i in range(4):
+            sess = MagicMock()
+            sess.status = MagicMock(value="completed" if i < 3 else "aborted")
+            sessions.append(sess)
+        
+        success_count = sum(1 for s in sessions if s.status.value == "completed")
+        success_rate = success_count / len(sessions) if sessions else 0.0
+        
+        assert success_count == 3
+        assert success_rate == 0.75
+
+    def test_session_duration_median(self):
+        """Should compute median session duration."""
+        from datetime import datetime, timedelta
+        
+        base = datetime.utcnow()
+        sessions = []
+        durations_minutes = [10.0, 20.0, 30.0, 40.0, 50.0]
+        
+        for dur in durations_minutes:
+            sess = MagicMock()
+            sess.started_at = base
+            sess.ended_at = base + timedelta(minutes=dur)
+            sessions.append(sess)
+        
+        computed_durations = []
+        for s in sessions:
+            if s.ended_at and s.started_at:
+                duration = (s.ended_at - s.started_at).total_seconds() / 60.0
+                computed_durations.append(duration)
+        
+        median_duration = float(np.percentile(computed_durations, 50))
+        assert median_duration == 30.0
+
+
+class TestEmptyWindowHandling:
+    """Tests for empty window handling."""
+
+    def test_empty_latency_list_returns_none(self):
+        """Empty latency list should handle gracefully."""
+        latencies = []
+        result = float(np.percentile(latencies, 50)) if latencies else None
+        assert result is None
+
+    def test_empty_session_list_returns_empty_rollups(self):
+        """Empty session list should return empty rollups."""
+        sessions = []
+        assert len(sessions) == 0
+        # Verify we don't attempt calculation
+        assert not sessions  # Evaluates to True (empty)
+
+    def test_empty_request_list_zero_counts(self):
+        """Empty request list should have zero counts."""
+        requests = []
+        
+        metrics = {
+            "request_count": float(len(requests)),
+            "success_count": 0.0,
+            "error_count": 0.0,
+        }
+        
+        assert metrics["request_count"] == 0.0
+        assert metrics["success_count"] == 0.0
+        assert metrics["error_count"] == 0.0