This project shows that machine unlearning can create racial-performance bias when the forget set is concentrated in one demographic group. Built on an eye-coordinate regression model for face anonymization, the project studies how facial privacy, unlearning, and group fairness interact in a concrete biometric setting.
We tackle the risk that privacy-driven unlearning can unfairly damage the group being unlearned. Face images are sensitive biometric data, and if a model has been trained on them without consent, machine unlearning is a natural response because it aims to remove the influence of data that should no longer be remembered.
The central question is whether a privacy-preserving operation can create a fairness problem. If most removed samples come from one racial group, the model may become worse for that group even when average retain-set performance still looks acceptable; this project tests that failure mode in an eye-detection pipeline.
Prior work usually treats facial privacy and machine unlearning as separate problems. Face-privacy methods protect sensitive facial information through anonymization or de-identification, including pixel-level masking, representation-level transformations, semantic face replacement, GAN/diffusion-based synthesis, and hardware-aware privacy-preserving image formation.
Recent unlearning work frames the task as removing a forget set while preserving utility on a retain set. Surveys organize exact retraining, approximate gradient/influence-based methods, verification, federated/graph unlearning, and privacy/security risks, while newer group-robust unlearning work points out that non-uniform forget sets can cause group-specific degradation and proposes reweighting or mutual-information-aware mitigation.
The main challenge is exposing group-specific utility collapse that aggregate unlearning metrics can hide. A model can appear to satisfy privacy removal while becoming much less accurate for the demographic group that contributed most of the forget set.
In this project, the challenge is made practical and measurable through eye-coordinate regression. After unlearning Asian face samples from the detector, we ask whether localization error increases disproportionately on Asian faces compared with Western faces, and whether a lightweight rebalancing step can recover part of that loss without discarding the privacy goal.
Our method makes the privacy-fairness conflict observable by combining a multi-race eye detector, group-targeted unlearning, and group-wise evaluation. We extend a BioID-based eye detector with Asian face data converted into the same grayscale image format and .eye coordinate annotation style, and the detector predicts (left_x, left_y, right_x, right_y).
The model is designed to be small enough for controlled experiments while still usable for coordinate regression. It is a custom CNN trained with MSE loss, and the final version adds AdaptiveAvgPool2d((4, 6)) before the fully connected layers, reducing the flattened feature size from 128 * 35 * 48 to 128 * 4 * 6.
The unlearning pipeline is built to reveal and then mitigate target-group degradation. It uses Asian samples as the forget group, applies gradient ascent to remove target-group knowledge, stabilizes the model with fine-tuning on retained data, and then applies a rebalancing step by fine-tuning on retained Asian samples with higher sample weight.
The key design choice is to evaluate fairness separately from privacy removal. Instead of reporting one average loss, the project measures Asian and Western test losses separately and compares original, unlearned, and refined predictions on the same faces.
The experiment confirmed that group-skewed unlearning can produce disproportionate degradation. The evidence comes from a group-wise before/after comparison:
- Original model: established the baseline eye-coordinate loss for Asian and Western test images.
- Unlearned model: showed that unlearning the Asian forget set increased Asian loss more than Western loss.
- Rebalanced/refined model: tested whether Asian coordinate accuracy could partially recover while preserving acceptable Western performance.
- Visual evidence: compared original, unlearned, and refined predictions on the same images, then inspected whether black-box anonymization still covered the eye region.
The main result is that unlearning harmed the target group more strongly than the non-target group. In the final presentation, unlearning increased loss on Asian data by 81.6% and loss on Western data by 42.8%, showing that a privacy-preserving technique can create a measurable racial-performance gap; the rebalancing stage then tested a weighted fine-tuning route for reducing that gap.
이 프로젝트는 개인정보 보호를 위한 unlearning이 오히려 특정 집단의 성능을 불균형하게 낮출 수 있다는 문제를 다룬다. 얼굴 이미지는 매우 민감한 생체 정보이므로, 사용자의 동의 없이 학습된 얼굴 데이터가 있다면 machine unlearning을 통해 그 데이터의 영향을 제거하는 것이 자연스러운 대응이다.
핵심 질문은 개인정보 보호 기법이 공정성 문제를 만들 수 있는가이다. 삭제 대상 데이터가 특정 인종 집단에 치우치면 전체 평균 성능은 크게 나빠 보이지 않더라도 해당 집단에 대한 모델 성능은 더 크게 손상될 수 있으며, 이 프로젝트는 그 현상을 눈 위치 탐지 모델에서 실험적으로 분석한다.
기존 연구는 얼굴 개인정보 보호와 machine unlearning을 대체로 별개의 문제로 다룬다. 얼굴 개인정보 보호 연구는 anonymization 또는 de-identification을 중심으로 하며, 픽셀 단위 마스킹, representation 변환, semantic face replacement, GAN/diffusion 기반 얼굴 합성, hardware-aware privacy-preserving imaging 등을 사용한다.
Machine unlearning 연구는 forget set의 영향을 제거하면서 retain set의 성능을 보존하는 문제로 접근한다. 관련 survey들은 exact retraining, approximate gradient/influence 기반 방법, unlearning 검증, federated/graph unlearning, privacy/security 이슈를 정리하며, 더 최근의 group-robust unlearning 연구는 forget set이 특정 ethnicity나 gender에 치우칠 경우 집단별 성능 저하가 발생할 수 있음을 지적하고 reweighting 또는 mutual-information-aware mitigation을 제안한다.
핵심 도전 과제는 평균 unlearning 성능 뒤에 숨은 집단별 손상을 드러내는 것이다. 모델이 개인정보 삭제 목표를 달성한 것처럼 보이더라도, 실제로는 forget set에 많이 포함된 demographic group에 대해 훨씬 낮은 정확도를 보일 수 있다.
이 프로젝트는 이 문제를 eye-coordinate regression에서 직접 측정한다. Asian face sample을 detector에서 unlearning했을 때 Asian face에 대한 눈 위치 예측 오차가 Western face보다 더 크게 증가하는지, 그리고 가벼운 rebalancing을 통해 privacy 목표를 유지하면서도 이 손상을 일부 회복할 수 있는지 확인한다.
우리의 방법은 multi-race eye detector, group-targeted unlearning, group-wise evaluation을 결합해 privacy-fairness 충돌을 관찰 가능하게 만든다. BioID 기반 눈 탐지 모델에 Asian face data를 추가하고, 이를 동일한 grayscale 이미지 형식과 .eye 좌표 annotation 형식으로 변환한 뒤 (left_x, left_y, right_x, right_y) 네 개의 연속 좌표 값을 예측한다.
모델은 통제된 실험이 가능하도록 가볍게 설계한 custom CNN이다. MSE loss로 학습하며, final model에서는 fully connected layer 전에 AdaptiveAvgPool2d((4, 6))을 추가해 flattened feature 크기를 128 * 35 * 48에서 128 * 4 * 6으로 줄였다.
Unlearning pipeline은 target-group 성능 저하를 드러내고 완화하도록 구성했다. Asian sample을 forget group으로 설정하고, forget set에 gradient ascent를 적용해 target group에 대한 지식을 제거한 뒤 retained data로 stabilizing fine-tuning을 수행했다. 이후 retained Asian sample에 더 높은 sample weight를 부여해 unlearned model을 다시 fine-tuning하는 rebalancing 단계를 추가했다.
가장 중요한 설계는 privacy removal과 fairness evaluation을 분리한 것이다. 단일 평균 loss만 보고 끝내지 않고, Asian test loss와 Western test loss를 따로 계산하며, 같은 얼굴 이미지에서 original, unlearned, refined model의 눈 위치 예측 결과를 시각적으로 비교한다.
실험 결과는 group-skewed unlearning이 특정 집단에 더 큰 성능 저하를 만들 수 있음을 확인했다. 근거는 group-wise before/after 비교에서 나온다.
- Original model: Asian 및 Western test image에 대한 baseline eye-coordinate loss를 측정했다.
- Unlearned model: Asian forget set을 unlearning한 뒤 Asian loss가 Western loss보다 더 크게 증가하는지 확인했다.
- Rebalanced/refined model: Asian coordinate accuracy가 일부 회복될 수 있는지, 동시에 Western 성능이 크게 무너지지 않는지 검토했다.
- Visual evidence: 같은 이미지에 대해 original, unlearned, refined prediction을 비교하고, black-box anonymization이 여전히 눈 영역을 충분히 가리는지 확인했다.
핵심 결과는 target group의 손상이 non-target group보다 더 컸다는 점이다. 최종 발표에서 unlearning 이후 Asian data loss는 81.6%, Western data loss는 42.8% 증가했으며, 이는 privacy-preserving technique이 측정 가능한 racial-performance gap을 만들 수 있음을 보여준다. Rebalancing 단계는 retained Asian sample에 대한 weighted fine-tuning으로 이 격차를 줄이는 가능성을 검토했다.
final_project_Team12.pdf: final presentation deck.Codes/SafeAI_Final.ipynb: data processing, model training, unlearning, rebalancing, and visualization notebook.Codes/eye_cnn_250epochs.pth: original trained eye-coordinate model.Codes/eye_cnn_unlearned.pth: model after target-group unlearning.Codes/eye_cnn_refined.pth: model after rebalancing/fine-tuning.Codes/saved_predictions*/: original vs. unlearned prediction visualizations.Codes/triplet_predictions/: original vs. unlearned vs. refined coordinate visualizations.Codes/blackbox/: black-box anonymization visualizations.
Dataset: https://drive.google.com/drive/folders/1dYHk3t-gmbbApMmTqQPyNnvZHBwbIrXc?usp=sharing
Code and models: https://drive.google.com/drive/folders/1dzut6NRckFnWZiVRQoL8922IoZiclUc2?usp=sharing
| Package | Version |
|---|---|
torch |
2.6.0+cu124 |
torchvision |
0.21.0+cu124 |
opencv-python |
4.11.0.86 |
pandas |
2.2.2 |
numpy |
2.0.2 |
matplotlib |
3.10.0 |
scikit-learn |
1.6.1 |
retina-face |
0.0.17 |
opencv-python-contrib |
4.11.0.86 |
- Machine Unlearning: A Comprehensive Survey
- Group-robust Machine Unlearning
- RetinaFace: Single-stage Dense Face Localisation in the Wild
- Face De-identification: State-of-the-art Methods and Comparative Studies
- saved_predictions
-> The result of predicting Westerners with Unlearned model
- saved_predictions1
-> The result of predicting Asian with Unlearned model
- saved_predictions2
-> The result of predicting Asian with refined model
- triplet_predictions
-> The triplet of predicting Asian with OG model, Unlearned model and Refined model