核心想法
大语言模型的本质是"下一个 token 预测"。把一场比赛的每一个 play(进攻、防守、得分等)当成一个 token,把整场比赛的进程当成一个序列。模型的任务:给定已发生的序列,预测接下来几个 play 的概率分布,进而推算最终比赛结果的概率。
可以用 top-k 采样做 Monte Carlo 模拟——跑几千条可能的后续走势,聚合成胜负概率分布。
为什么能赚钱
- 不在于比庄家更聪明,而在于比大多数下注者反应更快
- 实时盘口在每个 play 之后更新,但市场重新定价需要时间
- 瞄准冷门赛事/小众联赛——盘口定价更软,人群更薄
数据
- 历史数据:nflfastR(NFL)、NBA Stats API,免费且详细
- 实时数据:ESPN 非官方 API,Sportradar 商业 feed
- 博彩平台:Betfair Exchange(开放 API,支持程序化下注)
技术路径(讨论结论)
合成数据预训练 + 真实数据微调:
- 建一个比赛模拟器(或 hook 进 NBA 2K / Madden 等现成模拟引擎)
- 生成几百万场模拟比赛的 play-by-play 序列做预训练
- 用 VQ-VAE 等方法直接从原始数据学 tokenizer(不需要手动 feature engineering)
- 用真实 play-by-play 数据做 SFT
先例: AlphaGo(自我对弈预训练 + 人类棋谱微调)、Tesla FSD(仿真 + 真实驾驶数据)
风险 & 挑战
- 竞争激烈: 专业机构(Starlizard 等)有几百人团队、毫秒级数据管道、十几年积累
- 数据延迟: ESPN API 延迟 5-15 秒,Sportradar 1-3 秒,等拿到数据盘口可能已动
- 数据量: NFL 一赛季 270 场 × ~150 plays ≈ 4 万条,即使 20 年也只有 ~80 万 plays(合成数据可缓解)
- 状态可观测性: play-by-play 数据是高度压缩的,缺少球员精确位置、体力等信息
- 体育比赛内在随机性高, 预测上限比自动驾驶等场景低
- Betfair 美国用户限制, 2-5% commission
- 冷门赛事矛盾: 定价软但数据少、流动性差
验证步骤
- 选 NFL 或 NBA,用 nflfastR / NBA Stats API 历史数据做 backtest
- 看模型 calibration 和 Brier score
- Benchmark: 能否持续 beat Vegas closing line
- 模拟器保真度验证
备选方向
如果 beat the market 太难,可以做赛事分析/内容产品——tokenize + sequence prediction 做"比赛走势预测可视化",对球迷来说有价值。
来源:Workflowly 群聊讨论 2026-07-17
核心想法
大语言模型的本质是"下一个 token 预测"。把一场比赛的每一个 play(进攻、防守、得分等)当成一个 token,把整场比赛的进程当成一个序列。模型的任务:给定已发生的序列,预测接下来几个 play 的概率分布,进而推算最终比赛结果的概率。
可以用 top-k 采样做 Monte Carlo 模拟——跑几千条可能的后续走势,聚合成胜负概率分布。
为什么能赚钱
数据
技术路径(讨论结论)
合成数据预训练 + 真实数据微调:
先例: AlphaGo(自我对弈预训练 + 人类棋谱微调)、Tesla FSD(仿真 + 真实驾驶数据)
风险 & 挑战
验证步骤
备选方向
如果 beat the market 太难,可以做赛事分析/内容产品——tokenize + sequence prediction 做"比赛走势预测可视化",对球迷来说有价值。
来源:Workflowly 群聊讨论 2026-07-17