共感覚 — 1つの意味ベクトルから、画像・音声・動画・3Dモデルを引き出す自由研究。
「りんご」という1つの概念をベクトル化し、それを異なるモダリティ (画像 / 音声 / 動画 / 3Dモデル)として表現する実験プロジェクト。
latent space(潜在空間)を直接触り、「意味を数値で操作する」感覚を 手を動かして掴むことを目的とする。
- 異なるモダリティが「共通のベクトル空間」で繋がるという発見
- Linus Lee の "latent space で思考する" という思想に触発された
- 分析にはエンコード(モダリティ→ベクトル)、表現にはデコード(ベクトル→モダリティ)
GPU は Kaggle の無料枠(T4 ×2)を使う。ローカルPCはブラウザのみで完結。
Kaggle で Notebook 実験
→ File > Download .ipynb
→ notebooks/ に保存
→ 気づきを learnings/ にメモ
→ git commit
| Phase | 内容 | モデル |
|---|---|---|
| 1 | 概念をベクトル化 | ImageBind |
| 2 | マルチモーダル類似度(テキスト⇔画像⇔音声) | ImageBind |
| 3 | ベクトル→画像 + latent補間 | Stable Diffusion |
| 4 | ベクトル→音声 | AudioLDM |
| 5 | ベクトル→3Dモデル | Shap-E |
notebooks/ Kaggle からダウンロードした .ipynb
outputs/ 生成された画像・音声・動画・3Dモデル(git管理外)
learnings/ 実験ログ・気づき