Skip to content

watanabe-kohei-jp/synesthesia

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

65 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

synesthesia

共感覚 — 1つの意味ベクトルから、画像・音声・動画・3Dモデルを引き出す自由研究。

これは何

「りんご」という1つの概念をベクトル化し、それを異なるモダリティ (画像 / 音声 / 動画 / 3Dモデル)として表現する実験プロジェクト。

latent space(潜在空間)を直接触り、「意味を数値で操作する」感覚を 手を動かして掴むことを目的とする。

着想

  • 異なるモダリティが「共通のベクトル空間」で繋がるという発見
  • Linus Lee の "latent space で思考する" という思想に触発された
  • 分析にはエンコード(モダリティ→ベクトル)、表現にはデコード(ベクトル→モダリティ)

進め方

GPU は Kaggle の無料枠(T4 ×2)を使う。ローカルPCはブラウザのみで完結。

Kaggle で Notebook 実験
  → File > Download .ipynb
  → notebooks/ に保存
  → 気づきを learnings/ にメモ
  → git commit

ロードマップ

Phase 内容 モデル
1 概念をベクトル化 ImageBind
2 マルチモーダル類似度(テキスト⇔画像⇔音声) ImageBind
3 ベクトル→画像 + latent補間 Stable Diffusion
4 ベクトル→音声 AudioLDM
5 ベクトル→3Dモデル Shap-E

ディレクトリ

notebooks/   Kaggle からダウンロードした .ipynb
outputs/     生成された画像・音声・動画・3Dモデル(git管理外)
learnings/   実験ログ・気づき

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors