向量嵌入:从离散符号到连续语义空间的数学革命

搜索"如何学习编程"和"编程入门方法",传统关键词匹配系统会认为这两个查询毫无关系——它们没有共享任何关键词。但人类一眼就能看出这是同一类问题。这个鸿沟困扰了信息检索领域数十年,直到向量嵌入技术给出了一个优雅的数学答案:把文字映射到连续向量空间,让语义相似的文本在几何空间中靠近。 ...

21 min · 10101 words

搜索引擎是如何工作的:从倒排索引到语义搜索的三十年技术突围

1990年9月,麦吉尔大学的计算机科学研究生Alan Emtage开发了一个名为Archie的程序。这个程序的工作方式在今天看来极其原始——它下载所有匿名FTP站点的目录列表,然后创建一个可搜索的文件名数据库。Archie不索引文件内容,因为当时的数据量小到可以手动搜索。这是人类历史上第一个互联网搜索引擎。 ...

11 min · 5266 words