ICLR‘24来自上海AI实验室和复旦大学的论文“Scaling Laws Of Rope-Based Extrapolation”。
基于旋转位置嵌入(RoPE)的大语言模型 (LLM) (Su et al.,2021) 外推能力是目前备受关注的话题。解决使用 LLM 外推问题的主流方法是修改 RoPE&…
RoPE 旋转位置编码 思想:以绝对位置编码的方式实现相对位置编码,RoPE位置编码通过将一个向量旋转某个角度,为其赋予位置信息。 q m q_m qm : 表示对词向量 q q q 添加绝对位置信息 m m m , q m f ( q , m ) q_m f(q,m) qmf(q,m) k…