新芜电商谷吧 关注:8贴子:79
  • 0回复贴,共1

百度怎么识别一篇文章是否原创的-“如果我是百度”

取消只看楼主收藏回复

“如果我是百度”-百度怎么识别一篇文章是否原创的,我只写自己的见解,不喜勿喷。
蜘蛛抓取一篇页面回去之后第一步要做的就是降噪处理!去掉那些网页上面没用的包括图片 CSS JS 导航栏 扩展阅读等等一些内容,只留下文章跟标题。(如果说你写了一篇文章 用了100个字 结果百度降噪处理的时候 一起给你降噪了,那百度是不会收录这个页面的)
蜘蛛筛选出内容来之后,会提交给下一级,下一级会给这篇内容通过自己特有的算法加上序号(猜测是-MD5值),然后直接对比数值,一般这个用不了1秒就能对比出来,(猜测是一秒以内 可能是几毫秒)
最简单的例子就是IP插叙,IP段够多的了吧,用软件查询马上就能查到是哪里的,这个也是一样的道理。
这个大家都用过吧 百度肯定是百亿级别的,但是大家能明白道理就行了。
我说的这些可能只是百度识别伪原创文章技术的沧海一粟。百度可能还会靠语义分析,自然科学等等的技术。有兴趣的可以了解一下(来源:九零电商)


1楼2015-08-03 19:23回复