在自然语言处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而,Transformer 及在其基础之上的大语言模型(Large Language Models,LLMs)都不具备有效长度外推(Length Extrapolation)的能力。这意味着,受限于其训练 ...