为什么大模型每次回答都不一样:从温度参数到批次不变性的完整技术解析

当你向ChatGPT连续两次提出相同的问题,大概率会得到两个不同的回答。很多人知道这是温度参数在作怪,但把温度调到0就能保证确定性吗?答案是否定的。即使temperature=0,OpenAI的API仍然可能返回不同的结果,而你自己部署的开源模型在vLLM或SGLang上推理时,输出同样不稳定。 ...

18 min · 8901 words

向量数据库的量化压缩:从Product Quantization到RaBitQ的二十年技术博弈

一台配备64GB内存的服务器,要索引十亿个768维的向量,需要多少存储空间? 答案是超过3TB。而标准的内存索引方案,比如HNSW,要求将所有数据加载到内存中才能保证查询延迟在毫秒级。这意味着,即使是企业级的服务器,也无法在单机上完成这项任务。云服务器的内存按GB计费,3TB内存的月成本可能高达数千美元——这才是向量数据库规模化部署面临的真正瓶颈。 ...

14 min · 6556 words

激光雷达为何比摄像头更难欺骗:从飞行时间测量到自动驾驶感知的技术博弈

2016年5月7日,美国佛罗里达州威利斯顿,一辆特斯拉Model S以每小时119公里的速度撞上了一辆正在转弯的白色卡车。驾驶员Joshua Brown当场身亡,这是全球首例涉及辅助驾驶系统的致命事故。事后调查显示,车辆的摄像头未能将白色卡车车身与明亮的天空区分开来——在强光照射下,这辆价值数十万美元的汽车"看"不到一辆横在眼前的卡车。 ...

12 min · 5777 words