Xu Ke

Results 1 comments of Xu Ke

> > 1、为什么Query在升维后 分出需要rope位置编码部分和不需要rope编码部分,而Key是在降维后得到rope这部分? 2、为什么Value向量是kv升维后分出来的,Key和Value为什么不是独立的? > > 个人理解可能有2方面原因,不知道说得对不对: 1、成本节省方面,k的rope编码是多头共享的,这个时候输出维度只有per head dim,这种情况下即使用了kv的中间低秩结果节省量也不大。作为对比 query的rope输出不共享,要输出total head dim 节省很大 2、语义/效果方面,q的中间低秩结果仅为q自己服务;k的低秩结果是kv共享的,它俩反向传播都会影响中间低秩结果的更新,所以把仅和k相关的rope也耦合在上面可能会制约效果或训练稳定性(而kv在查询中同时发力,所以它俩中间结果耦合在一起语义上也说的通) > > 另外[B站上有个老师讲的 MLA](https://www.bilibili.com/video/BV1HqFQezEMt) 很清楚 说的有理,但是貌似只回答了第一个问题。第二个问题我理解问的是:为什么Key和Value为什么要用共享的C^KV,而不用分开的。