搜狐首页 科技 无心法师2

手机搜狐

SOHU.COM

互联网存储人类语言的方式:词网

学习语言并不像学习单词那么简单。正如史蒂芬·平克所说:“如果你的车里放着一个包,而包里装着一升牛奶,那么你的车里就有一升牛奶。但如果你的车里坐着一个人,而这个人体内有一升血,那么推断出‘你的车里有一生血’这个结论就会很奇怪。”大脑皮层中的1000亿个神经元可能需要花一两秒钟才能找到这个答案。虽然今天的电脑有先进的硅芯片,但它很可能仍然无法理解这一点。这是互联网必须理解的语言和思维线索。否则,就算它的计算速度比大脑快很多,也没有任何作用。

过去语言学家一直对互联网不感兴趣,而互联网公司也一直忽略语言学领域。虽然互联网依赖于词语,但人们认为很难将词语和词义联系起来。但这一切都被普林斯顿大学的著名心理学家乔治·米勒的一项创新改变了。米勒的创新称为“词网”,它创建于1958年,并在之后的15年里得到了完善。到19世纪末20世纪初时,词网的原理已经被用于互联网,并促进了对语言学家的需要。米勒因此获得了几十个奖项,包括白宫颁发的美国国家科学奖。

词网大胆地按照大脑存储语言的方式,在电脑中分类存储人类语言。例如:交通工具、机动车、汽车、跑车、保时捷、911/944、博斯特、卡宴、卡曼。

自然语言中的每个词都有这种概括性和具体化。这些关系形成了网络结构,它们位于记忆系统的神经元之上。这种网络表示法能够将特定的信息放在可用于找到查询答案的更通用的构架上。

这对搜索引擎来说是个好消息。如果没有词网,当用户输入“博斯特”时,搜索的就只是“博斯特”。但有了词网这样的网络结构后,搜索引擎还会激活“跑车”和“保时捷”节点,得出更加丰富的信息。用户很快就能发现,博斯特拥有大功率发动机,通常只能坐两个人,而且价格也不便宜。词网对拼写检查和词典来说也是很有用的工具,邮件的自动检查功能可以让你的内容更好。它还能解决技术(试图解决自然语言,例如苹果的Siri)的上下文问题。

语言中还有一个更大的问题,即词语的多义性。如果自然语言中的单词只具有明确的含义,生活就会变得很简单。不幸的是,情况并非如此。例如,911就具有不同的含义。除了表示一款跑车类型外,它还表示曾发生在美国的恐怖袭击事件。语言是一种复杂的、不断发展的工具,看一下字典就能发现,几乎所有常用词都具有多重含义。实际上,单词的使用频率越高,它的含义就越多。更复杂的是,语言学中的真理是每个词的含义都略有不同,因此即使是同义词也不完全相同。

精选