机器通过在上下文中研究大量真实单词来学习它们。 谷歌的实际算法几乎可以肯定比公开的 Word2Vec 库更复杂,研究人员已经将基于向量的方法与其他方法相结合,例如更熟悉的 LDA(潜在狄利克雷分配),但这样的方法似乎很可能是在 RankBrain 中发挥作用。 RankBrain 不是查询翻译 很容易错误地得出这样的结论,即 RankBrain 只是将不熟悉的查询转换为更熟悉的查询,或者将长查询转换为短查询。不是这种情况。RankBrain 似乎是实时运行的,可以一次比较搜索短语的多个版本。 如果我错误地输入了“Benedict Crumblebatch”之类的搜索字词,Google 会告诉我: 在这种情况下,谷歌试图解释我的意图,并用它认为更好的版本替换了我的查询。这是查询翻译。在这种情况下,所有结果都与翻译后的查询匹配,它会否决我的原始搜索。
再看上面的一个例子,如果我搜索“scarf”,我可以得到“scarf”和“scarves”的匹配项(即使在相同的结果中): 谷歌没有翻译“围巾”->“围巾”,然后返回新术 号码表 语的匹配项。谷歌正在应用一个强大的相关引擎来实时识别这些匹配。 我们确定是 RankBrain 吗? 让我明确一点——相关性是一个非常复杂的过程,很难确定传统的信息检索方法在哪里结束,而 RankBrain 从哪里开始。我不能肯定地说我之前展示的所有示例都代表了 RankBrain 的实际应用。 然而,还有一个证据。还记得“NJ DMV”的例子吗?Google 能够理解“DMV”(机动车部)和“MVC”(机动车委员会)在新泽西州是等效的概念。
我们的数据科学团队由 Matt Peters 领导,构建了一个使用类似于 Word2Vec 的方法的 ML 原型。如果您在此工具中输入搜索词,它会查看相应的 Google 结果并计算这些结果与原始查询之间的相似度: 这张截图已经过编辑,但数据是真实的。该工具的意思是标题为“新泽西州 - 机动车委员会”的页面与“NJ DMV”非常匹配(93%,尽管系统有点宽容)。我们可以训练 ML 系统来执行这项任务这一事实并不能证明 RankBrain 做到了,但它至少表明它完全在 Google 的 ML 能力范围内。 RankBrain 什么时候推出的? 请注意,RankBrain 通常与 2015 年 10 月的发布日期相关联,但该文章还说 RankBrain “在过去的几个月里”一直在发挥作用。Steven Levy 在 Google 上关于 ML 的文章给出了 2015 年 4 月推出的日期,我们相信时间线是准确的。