WanderLens/ProjectOverview.txt at main · yuting0624/WanderLens · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
WanderLens – 次世代 同時通訳旅行AIエージェント
1.1 基本コンセプト
プラットフォーム
スマートフォン向けPWAアプリケーションとして提供。
コンセプト
マルチモーダルAI旅行コンパニオンとして、ユーザーが現地に足を運ぶ際に、同時通訳機能や現場サポートをリアルタイムに提供。
目的
・現地でのコミュニケーション支援（同時通訳・質問・交渉）
・予約や問い合わせのサポート（現地スタッフとのやりとりをスムーズに誘導）
・文化理解と没入型体験の提供
UI/UX
モダンで未来感あふれるデザイン、リッチなアニメーションとARエフェクトを実装し、ユーザーに直感的で没入感のある体験を提供。
1.2 主要機能
インテリジェント対話システム
音声／テキストチャット
ユーザーとAIが音声およびテキストで自然な対話を実現。
multimodal live apiを活用。
※現状：基本的な音声・テキスト対話は実装済み。エラーハンドリングの強化が必要。

多言語対応
日本語はもちろん、英語、中国語など複数言語での対話をサポート。
※現状：基本的な多言語翻訳は実装済み。パフォーマンス最適化が必要。

連続対話と文脈理解
セッション内の会話履歴を元に、前回の情報を参照しながら対話を継続可能。
※現状：Firestoreを使用した永続化は実装済み。セキュリティルールの見直しが必要。

リアルタイム視覚認識＆ARオーバーレイ
観光スポット認識
カメラ映像から建築物、標識、風景などをリアルタイムで認識し、関連情報を提供。
※現状：基本的な視覚認識は実装済み。エラー処理の強化が必要。

AR情報表示
認識結果を、画面上にバウンディングボックスやアイコン、ARアニメーションとしてオーバーレイ表示。
※現状：基本的なオーバーレイ表示は実装済み。アクセシビリティの改善が必要。

マルチモーダル連携
音声入力・映像入力を組み合わせ、同時にテキスト情報としても解析結果を提供。
※現状：基本機能は実装済み。パフォーマンス最適化とエラーハンドリングの強化が必要。

インテリジェント 同時通訳システム
現地サポート
ユーザーが現地で店舗や施設に向かう際、Multimodal Live APIを活用して、リアルタイムで通訳・質問・予約・交渉のサポートを実現。
※現状：基本機能は実装済み。エラー処理とユーザビリティの改善が必要。

同時通訳
ユーザーの発話を高品質な音声入力として処理し、目的言語に自動変換。
※現状：基本的な通訳機能は実装済み。パフォーマンスとエラー処理の改善が必要。

対話中の確認
過去セッションの履歴を外部保存から読み込み、文脈を再利用。
※現状：基本機能は実装済み。セキュリティとパフォーマンスの最適化が必要。

インテリジェント予約・交渉サポート
ツール連携 (Function Calling)
外部の予約API（レストランや観光施設の予約、現地の問い合わせ窓口など）と連携。
※現状：基本的なFunction Callingは実装済み。エラーハンドリングの強化が必要。

リアルタイム交渉
現地スタッフとの交渉シナリオにも対応。
※現状：基本機能は実装済み。ユーザビリティの改善が必要。

2. Gemini 2.0 の最新機能を踏まえたアプローチ
Multimodal Live API の活用
リアルタイム双方向通信
WebSocketを用いた低レイテンシ通信により、音声、映像、テキストの入力を同時に処理。
同時通訳モード
音声入力を受け、同時通訳エンジン（Geminiの最新機能または外部STT/TTSサービスとの併用）で迅速に翻訳結果を生成。
Function Calling とツール連携
予約や現地交渉の際、外部API（例：BookingAPI, Maps API）を呼び出し、適切な情報を取得・送信する仕組みを実装。
増分レスポンス＆ARオーバーレイ
リアルタイム画像解析
カメラ映像から認識された情報を、ARエフェクト（バウンディングボックス、アイコン、アニメーション）としてフロントに描画。
増分応答
Gemini の増分レスポンス機能を活用し、対話の途中で情報が更新されてもスムーズに画面へ反映。
会話の記憶とコンテキスト管理
セッション内文脈
同一セッション内での過去の対話履歴はもちろん、Firebaseなど外部データベースに保存して永続化。
履歴の再利用
ユーザーが「前回話した内容を教えて」と尋ねた場合、外部ストレージから履歴を読み込み、モデルに付加することで継続性を確保。
3. データストアとデプロイ
データストア
Firestore
ユーザーの嗜好、過去履歴、セッション履歴の保存に利用。
Cloud Storage
画像や音声などマルチメディアファイルの保存。
Cloud Memorystore
一時セッションキャッシュとして利用し、リアルタイム性を維持しつつ外部ストレージとの連携も行う。
デプロイ
フロントエンド
モダンなデザインを採用したレスポンシブWebアプリ／PWA。
・未来的なUI、アニメーション、ARエフェクトを実装。
バックエンド
Dockerコンテナ化し、Cloud RunまたはGKEで稼働。
・WebSocketエンドポイントを用意し、Gemini 2.0とのストリーミング仲介。
・Secret Managerで各種APIキー管理（Gemini APIキー、外部予約APIキーなど）。
4. 開発プラットフォーム＆ステップ
フロントエンド技術
React/Vue/Angular 等のモダンフレームワークで実装（特に、モバイル向けPWAとして最適化）。
ARやアニメーションの実装は、Three.js や Lottie などを活用して未来感を演出。
バックエンド技術
Runtime
Cloud Run でコンテナ化されたサーバーを構築。
WebSocketサーバー
Gemini 2.0とのリアルタイム通信を管理。
ツール連携
開発ステップ
MVP構築 ✓
・テキスト×テキスト対話で基本の観光案内機能を実装。
・多言語対応の同時通訳機能を実装。

同時通訳サポートデモ ✓
・現地でユーザーがカメラを向けると、建築物や標識を認識し、音声とテキストで自動翻訳・通訳する機能を実装。
・予約・交渉のツール連携（Function Calling）デモも実装。

UI/UX強化 △
・モダンで未来的なUIは実装済み。
・アクセシビリティとユーザビリティの改善が必要。

データ永続化と文脈管理 △
・Firebase Firestoreにセッション履歴とユーザー嗜好を保存する機能は実装済み。
・セキュリティとパフォーマンスの最適化が必要。

今後の改善計画
優先度A（高）
1. エラーハンドリング強化
2. パフォーマンス最適化
3. セキュリティ強化

優先度B（中）
1. コードリファクタリング
2. タイプセーフティの向上
3. アクセシビリティ改善

優先度C（低）
1. ドキュメント整備
2. テスト実装

5. システムフロー
5.1 同時通訳サポートフロー
ユーザー現地行動
ユーザーは現地に出向き、アプリのカメラやマイクで現場情報を入力。
リアルタイム同時通訳
Multimodal Live APIにより、カメラ映像と音声入力がGemini 2.0に送信され、同時通訳結果が生成される。
情報提供と支援
AIが現地の建物や標識の情報を認識し、文化・歴史情報、さらにユーザーの質問に対してリアルタイムに通訳・回答。
「予約して」などの発話に対して、Function Callingで外部予約システムを呼び出し、予約完了情報を返す。
UI表示
モダンなUI・ARオーバーレイで、通訳結果や予約状況、地図情報などが画面上にリアルタイム表示される。
会話履歴永続化
各セッション終了時に、会話履歴をFirebase Firestoreに保存。次回以降、ユーザーが過去の対話を参照できるようにする。
5.2 観光ガイド・サポートフロー
カメラ入力
ユーザーが現地でカメラを向けると、建築物や看板を自動認識。
情報解析＆通訳
Gemini 2.0がリアルタイムに情報を解析し、同時通訳でユーザーの母国語に変換。
AR表示
ナビゲーション＆ルート案内
Places APIとの連携で、ユーザーの位置情報に基づいた観光名所やお店をリアルタイムに提案。