变长序列处理:大模型如何应对长短不一的输入
把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...
把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...