RT, 我尝试使用Minimax-text-01并在RULER评估集上进行测试。然而,我发现有些评测任务准确率异常的低。如RULER中的niah_single_3任务,使用RULER官方给的测试代码生成数据并测试后准确率几乎为0%。进一步查看模型错误的预测示例发现,模型能够正确找到key(也就是一个uuid字符串)却无法正确的复述它。以下给出一个例子:
label: cb10cf68-b769-4470-89bc-f4a8bc6284a8
模型预测:cb10cf68-b76944f0-89bc-f4a8bc6f284a8
我使用的vllm版本是0.9.1并手动修复了vllm-project/vllm#19592所提到的精度问题。
我想知道我所遇到的这个现象是因为存在其他的模型精度问题,还是linear attention的固有缺陷?