Are the Values of LLMs Structurally Aligned with Humans? A Causal Perspective

Welcome! This codebase accompanies the ACL2025 paper Are the Values of LLMs Structurally Aligned with Humans? A Causal Perspective and is based on SAELens.

1. Python Environment Setup

pip install -r requirements_vsa.txt

2. Directory Structure Setup

Set up the following directory structure outside the main project directory:

.
- ├── model_data
- │ ├── google
- │ │ └── gemma-2b-it
- │ ├── jbloom
- │ │ ├── Gemma-2b-IT-Residual-Stream-SAEs
- │ ├── meta-llama
- │ │ └── Meta-Llama-3-8B-Instruct
- │ ├── Juliushanhanhan
- │ │ └── llama-3-8b-it-res
- └── SAELens
- │ └── value_data
- │ └── value_orientation.csv

3. Execution Instructions

Generate Data

Run the following notebook to generate data with different role and SAE settings for all values:

tutorials/value_causal_graph.ipynb

Analyze Data

After generating the result CSV files, use the following notebook for data analysis by loading the CSV files:

tutorials/value_causal_graph_analysis.ipynb

Name		Name	Last commit message	Last commit date
Latest commit History 645 Commits
.github		.github
.vscode		.vscode
content		content
docs		docs
sae_lens		sae_lens
scripts		scripts
tests		tests
tutorials		tutorials
value_data		value_data
.flake8		.flake8
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
.pylintrc		.pylintrc
CHANGELOG.md		CHANGELOG.md
LICENSE		LICENSE
README.md		README.md
README_ori.md		README_ori.md
__init__.py		__init__.py
check_open_ai_sae_metrics.ipynb		check_open_ai_sae_metrics.ipynb
compare_gemma_hard_neg.png		compare_gemma_hard_neg.png
compare_gemma_hard_pos.png		compare_gemma_hard_pos.png
compare_gemma_sae_neg.png		compare_gemma_sae_neg.png
compare_gemma_sae_pos.png		compare_gemma_sae_pos.png
compare_llama_hard_neg.png		compare_llama_hard_neg.png
compare_llama_hard_pos.png		compare_llama_hard_pos.png
compare_llama_sae_neg.png		compare_llama_sae_neg.png
compare_llama_sae_pos.png		compare_llama_sae_pos.png
eval_metrics_resid_mid_oai.csv		eval_metrics_resid_mid_oai.csv
gemma_causal_test_100.png		gemma_causal_test_100.png
gemma_causal_test_selfref.png		gemma_causal_test_selfref.png
gemma_causal_test_standards.png		gemma_causal_test_standards.png
gemma_causal_test_standards_mh.png		gemma_causal_test_standards_mh.png
gemma_causal_test_valuebench.png		gemma_causal_test_valuebench.png
llama_causal_test_100.png		llama_causal_test_100.png
llama_causal_test_selfref.png		llama_causal_test_selfref.png
llama_causal_test_standards.png		llama_causal_test_standards.png
llama_causal_test_standards_mh.png		llama_causal_test_standards_mh.png
llama_causal_test_valuebench.png		llama_causal_test_valuebench.png
make_hf_repo.sh		make_hf_repo.sh
makefile		makefile
mkdocs.yml		mkdocs.yml
pyproject.toml		pyproject.toml
requirements_ori.txt		requirements_ori.txt
requirements_vsa.txt		requirements_vsa.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Are the Values of LLMs Structurally Aligned with Humans? A Causal Perspective

1. Python Environment Setup

2. Directory Structure Setup

3. Execution Instructions

Generate Data

Analyze Data

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Are the Values of LLMs Structurally Aligned with Humans? A Causal Perspective

1. Python Environment Setup

2. Directory Structure Setup

3. Execution Instructions

Generate Data

Analyze Data

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages