大语言模型

为什么让大模型输出JSON格式这么难？从自回归生成到约束解码的技术突围

一个金融科技团队花了三个月开发智能客服系统，核心功能是将用户的自然语言查询转换成结构化的JSON格式，再传递给后端API处理。测试环境下一切正常，但上线第一天就收到大量报错——JSON解析失败。排查日志发现，模型输出的JSON有的缺少逗号，有的多了尾随逗号，有的字段名拼错了，还有的直接在JSON后面加了一段"解释说明"。 ...

LoRA低秩适配为何能以千分之一参数量实现高效微调

一个拥有1750亿参数的语言模型，微调时只需训练不到2000万参数——这听起来像是天方夜谭，但微软研究院在2021年发表的论文让这个"魔术"变成了现实。 ...

RAG检索为何频频失准：从向量空间的数学局限到语义鸿沟的技术突围

一个法律科技团队花了六个月搭建的RAG系统，在内部测试中表现完美——准确率超过90%。但上线第一周，用户投诉就涌了进来：系统检索到的条款总是"差那么一点"。问的是"合同解除后赔偿如何计算"，返回的却是"合同解除的条件有哪些"；问的是"违约金上限"，拿到的却是"定金与违约金的区别"。 ...

为什么大模型能从几个例子中学会新任务：从隐式梯度下降到Induction Head的技术解密

2020年5月，OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现：这个拥有1750亿参数的模型，竟然能在没有任何参数更新的情况下，仅凭输入中提供的几个示例，就学会完成全新的任务。 ...

为什么千亿参数的模型只需激活百亿？MoE架构的三十年技术突围

2024年12月，DeepSeek团队发布了一组令人困惑的数字：DeepSeek-V3拥有6710亿参数，但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。 ...

大模型为什么会编造事实：从统计本质到检测缓解的技术全景

2023年，一位美国律师使用ChatGPT查找法律判例，结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道：“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析，从学术研究到法律咨询，大模型的幻觉问题正在成为AI落地应用的最大障碍。 ...

大模型为什么会产生涌现能力？从Scaling Laws到相变理论的科学解密

2022年，Google Research的研究者们做了一个看似简单的实验：让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型，准确率几乎为零；但当参数量突破某个临界点后，准确率突然飙升到80%以上。 ...