Repository files navigation
作者 :b站海安雨 。
使用方法 :点击宝藏论文链接大全 文件夹可阅读所有论文,点击观看视频 可跳转到b站视频。
下载方式 :点击右上角的<>code按钮,选择Download Zip。或直接git clone。
迄今为止 :已经整理了101 个宝藏问题手稿和48 篇宝藏论文的参考文献。
124. 训练时是如何恰好错开一个token的?【每天一个宝藏问题】
123. 如何用CPU内存的残差修正量化误差?以DecDEC为例【每天一个宝藏问题】
122. 为什么只有单个词嵌入就能构成二元语言模型?【每天一个宝藏问题】
121. 为什么GQA是MQA过渡到MHA的插值?【每天一个宝藏问题】
120. 任意矩阵满足什么性质就能成为RoPE旋转矩阵?【每天一个宝藏问题】
119. 如何可视化多头注意力?【每天一个宝藏问题】
118. 为什么Deepseek V3不用辅助损失也能做到MoE负载均衡?【每天一个宝藏问题】
117. 如何用动态规划理解在线softmax的循环与归约?【每天一个宝藏问题】
116. 如何从动态规划和记忆化搜索理解DQN?【每天一个宝藏问题】
115. 为什么梯度下降、泰勒展开、正态分布都有多元扩展?【每天一个宝藏问题】
114. 为什么除以√dk是在给注意力升温?【每天一个宝藏问题】
113. 如何理解梯度下降的多元函数扩展?【每天一个宝藏问题】
111. 如何直观理解KV Cache的显存计算公式?以Llama2-7B为例。【每天一个宝藏问题】
110. 为什么激活值per channel量化比per token量化难加速得多?【每天一个宝藏问题】
109. 最简单的Transformer可视化能有多简单?【每天一个宝藏问题】
108. 如何用前缀和理解稀疏矩阵的CSR格式?【每天一个宝藏问题】
107. DeepSeek V4如何使用Attention Sink忽略上下文?【每天一个宝藏问题】
106. Flash Attention反向传播也做到线性显存了吗?【每天一个宝藏问题】
105. K-Means聚类和中垂线有什么关系?【每天一个宝藏问题】
104. 为什么训练时是同时预测token的?【每天一个宝藏问题】
103. 多个线程执行同一段算子代码时发生了什么?【每天一个宝藏问题】
102. PagedAttention是如何减少内存浪费的?【每天一个宝藏问题】
101. 如何用矩阵乘法链式法则速推Flash Attention梯度?【每天一个宝藏问题】
100. 为什么神经网络连接可以用矩阵乘法实现?【每天一个宝藏问题】
99. MOE中先求Top K后Softmax,与先求Softmax后重归一化能一样?【每天一个宝藏问题】
98. 为什么训练时上个词的概率预测不直接影响下个词?【每天一个宝藏问题】
97. 张量广播的线性索引是如何对应的?【每天一个宝藏问题】
96. LoRA微调中A、B都随机初始化或全零初始化分别会带来什么问题?【每天一个宝藏问题】
95. 标量乘法的链式法则可以推广到矩阵吗?【每天一个宝藏问题】
94. 量化感知训练中为什么要STE来处理round梯度?【每天一个宝藏问题】
93. 为什么Transformer的核心公式是在做加权平均?【每天一个宝藏问题】
92. 为什么量化会让损失“山谷”变成“台阶”?【每天一个宝藏问题】
91. 游戏AI和LLM的πθ(a∣s)有何异同?【每天一个宝藏问题】
90. OBQ如何将最小化剪枝损失推广到量化?【每天一个宝藏问题】
89. 量化感知训练是如何感知到量化的?【每天一个宝藏问题】
88. 量化后微调为什么要对聚类中心求和?【每天一个宝藏问题】
87. 为什么前向广播对应着反向归约?【每天一个宝藏问题】
86. 为什么矩阵乘法可以看作标量乘法的拓展?【每天一个宝藏问题】
85. 为什么prefill和decode都可以跳过掩码上三角计算?【每天一个宝藏问题】
84. LoRA要增加旁路,微调前后模型结构却可以不变,为什么?【每天一个宝藏问题】
83. Flash Attention的线性显存比平方显存增长慢了多少?【每天一个宝藏问题】
82. 在线Softmax和Flash Attention分别维护了多少个“动态规划量”?【每天一个宝藏问题】
81. 量化后微调让聚在一起的权重分家了怎么办?【每天一个宝藏问题】
80. 剪枝后微调让被置零的权重不再为零怎么办?【每天一个宝藏问题】
79. 为什么基于权重大小剪枝是特殊的OBD、OBS、OBQ?【每天一个宝藏问题】
78. GPTQ量化的最小化目标如何写成类似OBS形式的?【每天一个宝藏问题】
77. 为什么训练时教师强制是只“感觉”不“生成”的?【每天一个宝藏问题】
76. 为什么OBS剪枝可看作特殊的OBQ量化?【每天一个宝藏问题】
75. OBS剪枝是如何选择被剪枝的权重的?【每天一个宝藏问题】
74. 为什么OBD剪枝是特殊的OBS剪枝?【每天一个宝藏问题】
73. OBS剪枝保留与修改了OBD剪枝的哪些假设?【每天一个宝藏问题】
72. 如何从几何视角理解拉格朗日乘子法?【每天一个宝藏问题】
71. OBD剪枝假设山谷是什么样的?【每天一个宝藏问题】
70. 如何理解泰勒展开的多元函数扩展?【每天一个宝藏问题】
69. 深度学习中两种常用的矩阵微积分是怎么来的?【每天一个宝藏问题】
68. prefill和decode时KV Cache是如何"堆积"的?【每天一个宝藏问题】
67. 为何圆形山谷会让OBD剪枝退化为基于大小剪枝?【每天一个宝藏问题】
66. LLM.int8与SmoothQuant解决离群值的思路有何异同?【每天一个宝藏问题】
65. 从校准集说明为何SmoothQuant中的S无需矩阵乘算子【每天一个宝藏问题】
64. SmoothQuant量化中有没有用到外积思想?【每天一个宝藏问题】
63. 举例说明SmoothQuant量化对角矩阵乘法的正确性?【每天一个宝藏问题】
62.LLM.int8是如何利用向量外积进行量化的?【每天一个宝藏问题】
61. 含广播的偏置b的梯度如何计算?【每天一个宝藏问题】
60. LoRA微调和向量外积为何长得很像?【每天一个宝藏问题】
59. DeepSeek OCR比较人性化的可视化可能是什么样的?【每天一个宝藏问题】
58. 如何根据答案倒推合成思维链做SFT?以AscendKernelGen为例【每天一个宝藏问题】
57. 网格步进是如何加速张量计算的?【每天一个宝藏问题】
56. 为什么多个Sub-Agent也可以共享前缀KV Cache?【每天一个宝藏问题】
55. 为什么KV Cache也有LRU等缓存替换策略?【每天一个宝藏问题】
53. 如何加速两个张量之和?【每天一个宝藏问题】
52 简单的梯度算子是如何定义的【每天一个宝藏问题】
51 矩阵乘法对权重的梯度是怎么来的?【每天一个宝藏问题】
49. 双缓冲是如何加速张量计算的?【每天一个宝藏问题】
47 CLIP比较人性化的可视化可能长什么样?【每天一个宝藏问题】
46. 矩阵乘法对激活的梯度是怎么来的?【每天一个宝藏问题】
45. SIMD是如何加速张量计算的(简单理解)【每天一个宝藏问题】
44. 为什么把权重置0就是在剪枝?【每天一个宝藏问题】
42. 聚类量化和线性量化有何不同?【每天一个宝藏问题】
41 Flash Attention之前的那种N^2注意力不好在哪里?【每天一个宝藏问题】
40. Temperature、TopK/P退化为贪婪解码的三种条件是?【每天一个宝藏问题】
39. FlashAttention V2中为何要先循环Q后循环K?【每天一个宝藏问题】
37. GQA中讲的共享指的是Token还是Head?【每天一个宝藏问题】
36. 为什么推理时prefill是GEMM,而decode是(Batched)GEMV?【每天一个宝藏问题】
35. Transformer暗含多少种分块矩阵乘法的理解方式?【每天一个宝藏问题】
34. BERT为什么没有KV Cache/KV Cache何以存在?【每天一个宝藏问题】
33. 用户改提示词为什么不会影响前面的KV Cache?【每天一个宝藏问题】
32. 一种人性化的Transformer可视化可能是什么样的?【每天一个宝藏问题】
31. FlashAttention v2版本如何省略掩码上三角矩阵计算?【每天一个宝藏问题】
30. 举例说明SlimAttention的分块矩阵乘法的正确性?【每天一个宝藏问题】
29. 以逐元素乘加为例,算子融合为什么能提高计算效率?【每天一个宝藏问题】
28. 为什么在线Softmax比安全Softmax可以少一次循环?【每天一个宝藏问题】
23. Llama的旋转位置编码实现和RoPE原论文有何不同?【每天一个宝藏问题】
22. 为什么transformers.Llama的实现和RoPE原论文不一致?【每天一个宝藏问题】
21. 为什么增大旋转位置编码中10000可提高模型外推能力【每天一个宝藏问题】
20. RoPE注意力的绝对位置无关性和欧拉公式有什么关系?【每天一个宝藏问题】
19. 为什么RoPE中旋转矩阵R实际上不需要矩阵乘算子?【每天一个宝藏问题】
17. 为什么正余弦位置编码的注意力是和绝对位置相关的?【每天一个宝藏问题】
16. RoPE如何从2维推广到任意偶数维,奇数维咋办?【每天一个宝藏问题】
14. 旋转位置编码和高中三角函数和差角公式有什么关系?【每天一个宝藏问题】
13. 旋转位置编码和复数欧拉公式有什么关系?【每天一个宝藏问题】
54. bf16:与FP32有相同的8位指数位,所以更适合模型训练【每天一个宝藏名词】
50. 环境变量的工作原理:控制台启动时自动执行命令,让简写命令找到在哪执行【每天一个宝藏名词】
48. NoteBookLM:Google的PPT制作神器,还有思维导图等一系列功能【每天一个宝藏名词】
43. everything:比Windows默认文件搜索工具快很多,2MB的免费小工具【每天一个宝藏名词】
38. miniSGLang:一个简化版SGLang,仅5000行python【每天一个宝藏名词】
27. 在线Softmax:通过修正比安全Softmax减少了一次循环【每天一个宝藏名词】
26. TinyML:MIT推出的大模型轻量化课,亲手量化一个本地llama模型【每天一个宝藏名词】
25. 举例说明FlashAttention的分块矩阵乘法的正确性?【每天一个宝藏名词】
24. 思维树:大模型+DFS玩24点游戏成功率大增【每天一个宝藏名词】
18. CCF-DDL:一个统计CCF分类和倒计时的宝藏网站【每天一个宝藏名词】
15. 投机解码:小模型草拟,大模型验证【每天一个宝藏名词】
12. RoPE:通过旋转矩阵让注意力只取决于相对位置【每天一个宝藏名词】
11. GQA:介于MHA和MQA之间,键值共享查询分组【每天一个宝藏名词】
10. NF4:QLoRA中的非均匀量化数据类型【每天一个宝藏名词】
9. FlashAttention:将Attention的显存占用从平方级降到了线性级【每天一个宝藏名词】
8. PagedAttention:借鉴操作系统分页机制,内置于vLLM【每天一个宝藏名词】
7. SlimAttention:一种比FlashAttention更适合CPU的推理方案【每天一个宝藏名词】
6. nano-vLLM:纯python实现的堪比vLLM的推理框架【每天一个宝藏名词】
5. CS336:斯坦福LLM神课,甚至包含洗数据和SFT【每天一个宝藏名词】
4. SmoothQuant:一种转嫁压力的LLM量化方法【每天一个宝藏名词】
3. GPTQ:一种纯数学的LLM量化方法【每天一个宝藏名词】
2. AWQ:一种保护关键权重的LLM量化算法【每天一个宝藏名词】
1. BitNet 1.58b:微软开源的3值量化模型【每天一个宝藏名词】
[55]. ScaNN:向量检索论文解读【每天一个宝藏论文】
[53]. GPT3:论文解读【每天一个宝藏论文】
[52]. GPT2:论文解读【每天一个宝藏论文】
[51]. BERT:论文解读【每天一个宝藏论文】
[50]. MobileNet:论文解读【每天一个宝藏论文】
[49]. ResNet:论文解读【每天一个宝藏论文】
[48]. DAPO:论文解读【每天一个宝藏论文】
[47]. QLearning:论文解读【每天一个宝藏论文】
[46]. Muon is Scalable:Muon优化器论文解读【每天一个宝藏论文】
[45]. AlphaZero:论文解读【每天一个宝藏论文】
[44]. AutoRound:大模型量化论文解读【每天一个宝藏论文】
[41]. DeepSeek_GRPO:论文解读【每天一个宝藏论文】
[40]. Transformer:论文解读【每天一个宝藏论文】
[39]. 智能体强化学习论文串讲:WebRL、DigiRL、WebAgent-R1、AgentQ【每天一个宝藏论文】
[38]. AlphaGo:论文解读【每天一个宝藏论文】
[37]. Adam:论文解读【每天一个宝藏论文】
[35]. Deepseek-Engram:论文解读【每天一个宝藏论文】
[33]. mHC:流形约束超连接【每天一个宝藏论文】
[32]. Hyper Connections:残差连接的改进【每天一个宝藏论文】
[31]. OSDI 2025 LLM方向论文串讲:DecDEC、WLB_LLM、Straggler【每天一个宝藏论文】
[30] Deepseek-MLA、MTP解读 【每天一个宝藏论文】
[29] GPTQ:大模型量化论文解读【每天一个宝藏论文】
[28] 模型剪枝OB家族论文一口气看完:OBD、OBS、OBC【每天一个宝藏论文】
[27] SlimAttention:一种和FlashAttention分块策略不同的注意力【每天一个宝藏论文】
[26] GQA:分组查询注意力论文解读【每天一个宝藏论文】
[25] QLora:大模型量化微调论文解读【每天一个宝藏论文】
[24] SGLang:大模型推理引擎论文解读【每天一个宝藏论文】
[23] flash-attention-v3:论文解读【每天一个宝藏论文】
[22] FlashAttention-V2:论文解读【每天一个宝藏论文】
[21] 在线softmax:论文解读【每天一个宝藏论文】
[20] 投机采样:大模型推理加速论文解读【每天一个宝藏论文】
[19] DeepSeek-V4逐图、逐公式解读【每天一个宝藏论文】
[18] SmoothQuant:大模型量化论文解读【每天一个宝藏论文】
[17] FlashAttention-1论文解读 【每天一个宝藏论文】
[16] LLM.int8():大模型量化论文解读【每天一个宝藏论文】
[15] PagedAttention:vLLM论文解读【每天一个宝藏论文】
[14] AWQ:大语言模型量化论文解读 【每天一个宝藏论文】
[12]读2个多Agent共享KV Cache的论文【每周一个宝藏论文】
[10]大模型写算子:读两个KernelBench的改进工作【每周一个宝藏论文】
[8] 读三个强化学习写算子的论文【每周一个宝藏论文】
[6] Agent写算子:读三个Agent写算子的论文【每周一个宝藏论文】
[4] 大模型写算子:一篇综述+2个数据集【每周一个宝藏论文】
[2] 读上月新鲜出炉的综述:大模型写算子【每周一个宝藏论文】
[13] AutoDL上部署龙虾,它能帮忙测试算子性能吗?【每周一个宝藏实验】
[11] 跑robust-kbench测试LLM写算子,附Agent提示词【每周一个宝藏实验】
[9] 跑CUDA-L2测试和cuBLAS相比效果如何?【每周一个宝藏实验】
[7] 跑KernelBench测试LLM将PyTorch转译为CUDA代码的能力(ICML2025)【每周一个宝藏实验】
[5] 快速上手FuctionCall和React:极简易百词斩Agent【每周一个宝藏实验】
[3] 从采摘200片三叶草开始训练一个简易无条件DDPM 【每周一个宝藏实验】
[1]. 跑通TritonBench测试LLM的算子生成能力(ACL2025)【每周一个宝藏实验】
暂无视频
About
汇总了大模型学习与研究的重要资源与链接,整理了宝藏问题手稿,宝藏论文参考文献。
Resources
Stars
Watchers
Forks
You can’t perform that action at this time.