序列长度增加一倍,推理时间翻四倍?Transformer注意力复杂度的技术真相

把一篇2000字的文章喂给大模型,它能在毫秒级返回摘要。但当你把一篇20000字的长文档扔进去,等待第一个输出的时间可能从几百毫秒延长到几秒甚至更久。更诡异的是,生成后续内容的速度却没有明显下降。 ...

20 min · 9905 words