Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围

2023年10月,伯克利大学的研究团队提交了一篇论文,声称可以让Transformer处理"接近无限"长度的上下文。实验数据令人咋舌:在512块TPU v4上,7B模型可以训练超过800万Token的序列;在1024块TPU v4上,这个数字飙升到1600万。 ...

11 min · 5287 words