Word2Vec:两个模型如何教会机器理解词语之间的关系

2013年,Tomas Mikolov领导的团队在Google发表了两篇看似简单的论文。他们用一个浅层神经网络,只做一件事情:根据词语的上下文来学习词语的向量表示。这个叫Word2Vec的方法,后来成为自然语言处理领域最具影响力的技术之一。 ...

20 min · 9922 words

Hidden State:Transformer如何在层层传递中「理解」语言

输入一段文本,Transformer把它变成一串向量——这个过程看似简单,背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State(隐藏状态),这个向量不是静态的词嵌入,而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...

17 min · 8017 words

垃圾邮件过滤的三十年战争:从规则引擎到神经网络的进化之路

1978年5月3日,数字设备公司(DEC)的市场经理Gary Thuerk做了一件在当时看来平平无奇的事:他给ARPANET上的393个用户发了一封邮件,宣传公司的新产品演示会。邮件主题是"DIGITAL WILL BE GIVING A PRODUCT PRESENTATION OF THE NEWEST MEMBERS OF THE DECSYSTEM-20 FAMILY"。 ...

15 min · 7405 words