台北車站結構複雜,常被稱為「北車迷宮」。本專案旨在利用深度學習影像辨識技術,讓使用者只需拍攝一張車站內照片,即可判斷所在位置,未來可擴展至提供即時導航與路徑規劃。
- 室內定位:支援台北車站多節點分類定位(共 22 節點)
- 輕量化模型:適合行動裝置部署
- 多模型測試:包含 ResNet50D、ConvNeXtV2_Tiny、MobileViT、GNN、PureMLP 等
- 多任務學習:結合節點與區域分類,提升定位準確度
- 距離懲罰損失函數:依預測與真實節點距離加權懲罰
- 拍攝地點:一樓至 B3 共 22 節點
- 拍攝時間:平日 6:30 與 10:30(不同光線與人流)
- 數量:
- 六點半資料集:1501 張(訓練/驗證/測試)
- 十點半資料集:110 張(額外測試集)
- 資料增強:
- 隨機裁切縮放、水平翻轉、仿射變換、顏色擾動、高斯模糊等
- ResNet50D-RA2_IN1K:改良版 ResNet50,使用 Deep Stem 與 RandAugment
- ConvNeXtV2_Tiny:現代化輕量卷積架構
- MobileViT:融合 CNN 與 Vision Transformer
- PureMLP:全 MLP 架構(作為 baseline)
- Chan-Yi GNN:自製 GNN 架構,將影像轉換為圖結構處理
- 輸入尺寸:224×224
- Batch Size:16
- Epochs:50(Early Stop:4)
- 最佳化器:AdamW
- 指標:Accuracy、Macro Precision、Macro Recall、Micro Precision、Micro Recall
- 光線、遮擋、角度差異
- 多類別分類的泛化能力
- 人流密度造成影像干擾
- 車站內廣告與環境變動
- 擴展節點覆蓋範圍
- 增加多時間、多角度資料
- 與室內地圖整合,提供即時路徑導航
- 探索廣告牌等環境特徵的定位潛力
- 前處理:袁詠宸
- 損失函數:謝友毅
- 基準模型:林長毅、謝友毅
- 模型開發:趙仲文、陳芃宇、林長毅、謝友毅