[feat] Add model stability measurement (EA, CA, IV, CR) for k-samples mode #997

mwxely · 2026-01-16T05:36:39Z

Summary

This PR adds model stability measurement capabilities to lmms-eval, enabling users to assess model consistency by running multiple samples per question.

Motivation

Same accuracy does not mean same reliability:

| Model   | EA  | CA  | IV   | Note       |
|---------|-----|-----|------|------------|
| Model A | 80% | 82% | 0.05 | ← Stable   |
| Model B | 80% | 81% | 0.15 | ← Unstable |

Model A and B have the same Expected Accuracy, but Model A is 3× more stable (lower IV).

Changes

New CLI Parameter

lmms-eval --model xxx --tasks xxx -n 5  # or --num_samples 5

When n > 1, enables k-samples mode and computes stability metrics.

New Metrics

Metric	Full Name	Description
EA	Expected Accuracy	Mean accuracy across all k samples
CA	Consensus Accuracy	Accuracy after majority voting
IV	Internal Variance	Average per-question variance (lower = more stable)
CR	Consistency Rate	% of questions with identical answers across all k samples

Example Output

|Task|Metric|Value|Stderr|Stderr_CLT|Stderr_Clustered|EA |CA |IV |CR |
|----|------|-----|------|----------|----------------|---|---|---|---|
|mme |score |85.0 |N/A   |0.0435    |0.0512          |0.8|0.82|0.05|0.75|

Files Changed

File	Changes
`lmms_eval/api/metrics.py`	Add `expected_accuracy`, `consensus_accuracy`, `internal_variance`, `consistency_rate` functions
`lmms_eval/evaluator_utils.py`	Add `calculate_stability_metrics()` method
`lmms_eval/evaluator.py`	Override task repeats when `num_samples > 1`, call stability calculation
`lmms_eval/__main__.py`	Add `-n/--num_samples` CLI parameter
`lmms_eval/utils.py`	Display EA, CA, IV, CR columns in output table

Test Results

Full-set test with --num_samples 3 on VideoMME

Local cicd test

Add four new metrics for measuring model stability in k-samples mode: - expected_accuracy: mean accuracy across all k samples - consensus_accuracy: accuracy after majority voting - internal_variance: average variance within each question (lower is better) - consistency_rate: fraction of questions with consistent answers Reference: HackMD v0.6 roadmap section 2.5 Model Stability Measurement

- Add calculate_stability_metrics() method to TaskOutput class Groups scores by question and computes EA, CA, IV, CR when repeats > 1 - Update consolidate_results() to include stability metrics in output The metrics are only computed when num_samples > 1 (k-samples mode).

- Override task repeats with num_samples when n > 1 for stability measurement - Call calculate_stability_metrics() after aggregate metric calculation When --num_samples is set > 1, the evaluator runs each question k times to measure model consistency and stability.

…ment Add CLI argument to enable k-samples mode: -n, --num_samples: Number of samples per question (default: 1) When n > 1, enables k-samples mode and computes stability metrics (EA, CA, IV, CR) to measure model consistency. Usage: lmms-eval --model xxx --tasks xxx -n 5

…able - Add EA, CA, IV, CR columns to make_table() output - Skip stability metric variants in main metric loop (shown as columns) Example output: |Task|Metric|Value|Stderr|Stderr_CLT|Stderr_Clustered|EA |CA |IV |CR | |----|------|-----|------|----------|----------------|----|----|----|----| |mme |score |85.0 |N/A |0.0435 |0.0512 |0.80|0.82|0.05|0.75|

mwxely added 6 commits January 16, 2026 05:15

fix(lint): use specific exception type instead of bare except

6234f4c

mwxely requested review from Luodian and kcz358 January 16, 2026 05:48

mwxely changed the title ~~# [feat] Add model stability measurement (EA, CA, IV, CR) for k-samples mode~~ [feat] Add model stability measurement (EA, CA, IV, CR) for k-samples mode Jan 16, 2026

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[feat] Add model stability measurement (EA, CA, IV, CR) for k-samples mode #997

[feat] Add model stability measurement (EA, CA, IV, CR) for k-samples mode #997

mwxely commented Jan 16, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

[feat] Add model stability measurement (EA, CA, IV, CR) for k-samples mode #997

Are you sure you want to change the base?

[feat] Add model stability measurement (EA, CA, IV, CR) for k-samples mode #997

Conversation

mwxely commented Jan 16, 2026

Summary

Motivation

Changes

New CLI Parameter

New Metrics

Example Output

Files Changed

Test Results

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants