Word2Vec:两个模型如何教会机器理解词语之间的关系

2013年,Tomas Mikolov领导的团队在Google发表了两篇看似简单的论文。他们用一个浅层神经网络,只做一件事情:根据词语的上下文来学习词语的向量表示。这个叫Word2Vec的方法,后来成为自然语言处理领域最具影响力的技术之一。 ...

20 min · 9922 words

向量嵌入:从离散符号到连续语义空间的数学革命

搜索"如何学习编程"和"编程入门方法",传统关键词匹配系统会认为这两个查询毫无关系——它们没有共享任何关键词。但人类一眼就能看出这是同一类问题。这个鸿沟困扰了信息检索领域数十年,直到向量嵌入技术给出了一个优雅的数学答案:把文字映射到连续向量空间,让语义相似的文本在几何空间中靠近。 ...

21 min · 10101 words