深圳全网推广介绍为什么SEO应该了解搜索引擎算法的创始人KarenSpärckJones
为了纪念搜索引擎算法先驱KarenSpärckJones教授,让我们仔细看看她的最高成就:逆文档频率(idf)。它今天仍然具有重大影响。
Idf及其变体几乎支持所有现代复杂的搜索引擎算法,包括Google,Bing和Duck Duck Go使用的算法。她tf*idf在1972年的一篇论文中发表了她的算法,该论文题为:“ 术语特异性的统计解释及其在检索中的应用 ”,在整个20世纪60年代研究基于术语的搜索问题之后。
KarenSpärckJones是“搜索的爱因斯坦”
SpärckJones教授发明了最重要的相关算法组件,它仍然是当今搜索引擎算法的关键部分。即使修改调整了特定馆藏的排名策略,她的创新也使用户能够使用更自然的语言进行搜索。
在她工作之前,搜索相当困难。术语频率(tf)单独按文字密度度量对文档进行排序:术语计数超过字数。因为你不能轻易地使用自然语言来获得有意义的结果,因为你会从常见的单词中得到“the”等的噪音。
背后的概念tf*idf既简洁又优雅,令人叹为观止,与爱因斯坦的相对论无异。“一个术语的特殊性可以量化为它发生的文档数量的反函数,”琼斯写道。
算法具有对数
Idf计算含有术语的文档频率的倒数的对数,可以将其视为一个分数:所有文档都超过搜索项出现的文档数。结果是,很少出现在集合中的单词对相关性排名的重要性增加。
当停止词出现在许多文档中时,它们会同时被降级,当它们出现在所有收集文档中时,有时会降级为零。如果单词“the”出现在100个文档集合的所有100个中,则单词“the”得分正好为零。
log(100/100) 等于零。
数学的变体可以通过在文档总数中加1来避免这样的单词得分为零。结果仍然是一个无穷小的分数。
log(101/100) 等于0.004。
一个罕见的词,比如仅出现在100个中的1个文档中,将得分更高。
log(100/1) 等于2。
停止或不停止单词
例如,为了避免得分为零,我们会对所需结果进行调整。这是您使用文档集测试和编辑搜索算法的工作类型,当您的集合增长到现代Web的规模时,您将不断调整以提高相关性,并弥补垃圾邮件异常突然出现。
Pagerank具有对数
猜猜其他算法在对数范围内对文档进行评分?谷歌的PageRank。
没错,Google的PageRank是SpärckJones教授tf*idf算法的直接后裔。这并不是说谷歌没有改变数学来容纳其庞大的网络文档集。它肯定具有这样的程度,以至于它变得复杂且经过精心设计。
用Gary Illyes的意思来说:RankBrain是一个机器学习排名组件,它使用历史搜索数据来预测用户最有可能点击以前看不见的查询。它经常解决谷歌过去常常遇到的传统算法问题。无论何时传统的算法都是如此,它就为我们节省了无数次,例如“哦,在查询字符串中看起来不是'!让我们忽略了它的地狱!“它依赖于关于结果页面本身发生的事情的旧数据,而不是在登陆页面上。
对于网站管理员来说,忽略他所谓的“制造垃圾”所谓的停留时间,域名权限,点击率(搜索结果)等等,这是一个可靠的建议,因为任何有进取心的搜索引擎优化试图通过有限的研究来证明必然会遗漏几个不可翻译的重要因素。这个世界足够大,以至于一群志同道合的人会聚集起来并加强废话。这很自然。相反,他说:“搜索比人们想象的要简单得多。”
tf*idf现代搜索中的SpärckJones教授
谷歌一直在变得越来越复杂。这并不意味着你应该做SEO猜测工作。专注于使搜索引擎友好的网站具有宝贵和独特的内容。让我们tf*idf成为你的向导。搜索营销人员应该更少关注确保特定热门关键字在他们的网页上,并更多地考虑撰写独特的内容。谷歌在弄清楚你自然会使用的词语时会变得更聪明。
收集中的知识领域的分类,收集中的文档集,网站的分类,链接分析,网站用户,搜索用户 - 这些都源于KarenSpärckJones的发明,tf*idf其中有趣地,已经在实验中修改以应用于这些领域。
她热衷于保持最新,你可以在阅读信件大约tf*idf在2004年:“阿尔塔维斯塔的应用tf*idf从一开始,它似乎是大多数发动机,某个地方,使用类的东西作为其配套的战略一个组成部分。因此,一个简单,明显,有用的想法到达现实世界需要大约二十五年,即使是快速发展的信息技术也是如此。“