-
Notifications
You must be signed in to change notification settings - Fork 28
基座模型的通用能力有下降吗? #12
Copy link
Copy link
Open
Description
nice work!
有2个问题非常期待作者的分享:
-
因为paper是围绕memory这部分有很多实验。但是好像没有看到M+ 和 基座模型(Llama-3.1-8B)在通识能力上的对比。即,引入了memory这部分,加上3个stage的后训练后得到的M+ 模型的通识能力如何。就是作为用户,我既希望模型很强又希望模型拥有“记忆”。
-
目前训练得到的M+模型的"memory和retrieve"的能力是“通用”的吗?即 用户可以直接使用。还是跟训练数据有baise呢,比如医学知识或者特别小众领域的知识长文档, M+的memory指标都能稳定在线?
再次感谢作者的开源
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels