1. 企司令SEO首页
  2. SEO教程

什么是TF-IDF?

1.很重要的TF-IDF知识

百度排名得分=30%的网站内容质量(TFIDF)+ 40%的用户体验分(是否解决问题)+30%的链接分(域名+外链)

可见TFIDF到底有多重要,这里你必须要重视起来。

百度百科:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

此图像的alt属性为空;文件名为1574132455196-1024x758.jpg

这里的算法很复杂,那我们用简单来说明: 有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“母牛”一词。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。  

总结来说:核心关键词在内容中出现次数要多,让爬虫确定文章的重心是什么?光知道重心是第一步,第二步核心词的延伸词要多种多样,比如水果的衍生词有香蕉、菠萝等靠近词语,但是河马却离水果很远。

此图像的alt属性为空;文件名为2019111903253788.png

发布者:企司令,转载请注明出处:https://www.m40.cn/blog/shenmeshitf-idf/

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

15258683385

在线咨询:点击这里给我发消息

邮件:364603780@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code