爬信息爬到服务器瘫痪今日头条的头条搜索成了小网站的噩梦!

2019-12-02 17:45

  今年上半年,字节跳动放出了个让百度虎躯一震的消息 —— 今日头条开始做搜索引擎了。

  头条搜索从只限于头条 App 的站内搜,变成可以抓取全网内容的全新搜索引擎,期间还和百度互刚了好几波,字节跳动的野心可见一般。

  ( 世超之前还带大家体验了一把,没看过的差友们可以点这里补补课【传送门】)

  依靠着今日头条过亿日活带来的天然信息流资源,头条搜索已经有了很大的基础优势,这不考虑分百度一羹都说不过去。。。

  不过上线的这段时间,差评君关于他们的官方消息没看到几个,倒是爆出了这么个新闻 ——

  爬虫就是自动抓取全网内容的一种程序,它会定时把互联网上的内容爬下来,汇总存储到自己的服务器上,这样你每次搜索的时候,搜索引擎就会在这些内容里进行匹配相似度高的内容反馈给你。

  在这个新闻里,一些服务器体量较小的网站称,一种名为 Bytespider 的爬虫爬取他们的网站信息的频率太高,直接把网站整瘫痪了。

  大家顺着爬虫的 IP 地址查了一下,发现 Bytespider 就是今日头条的搜索爬虫。

  但让差评君疑惑的是,像是用爬虫爬信息这种在互联网界已经算得上最常规不过的操作,小体量的公司都很少出错,今日头条这种大厂怎么把人家网站给搞瘫了?今日头条在业内的技术口碑一直不错啊。。

  不查不知道,一查吓一跳,其实从今年 6 月开始就有网站主抱怨了这个 Bytespider。

  这对平均日活可能都没有过千的小网站来说,已经算得上一次小型的 DDoS 攻击了啊。。

  而且从今年 6 月到 10 月,越来越多的人开始在网上爆料自己也遇到了类似的情况。

  最过分的是,无论是国内还是国外的开发者,都表示遇到 Bytespider 无视自家网站 robots 协议的情况。

  它是一种网站附带的文本文件,专门用来告诉爬虫引擎在这个网站上的爬虫规矩。

  譬如说哪些内容可以被爬取,哪些内容不能被爬取,而某些涉及用户隐私的会直接禁止爬取。。。

  如果你想查看某个网址的 robots 规则,只需要在主域名后面添加 /robots.txt 便可以看到。。

  举个栗子,下面这个图片就是 Google 搜索的 robots 规则,Disallow 后面跟着的就是禁止爬虫做的事情,Allow 后面跟着的则是允许爬虫的操作。

  那些专门写了 robots 协议的网站,就是告诫那些爬虫网站,进了我家门,请遵守我的规定。

  再举个栗子,在用谷歌搜索的时候,你有可能会碰到有词条有链接,却没有页面说明的搜索结果。

  有些小网站会根据自己的服务器体量和维护成本,直接在 robots 协议里规定爬虫爬取的频率。

  然而 Bytespider 却会忽略掉人们的规矩,仗着自己财大气粗、服务器牛逼,每秒几十次,几百次的抓爬访问频率,让小网站变得卡顿,甚至直接 502 挂掉。。。

  本来网站们是并不排斥爬虫过来爬取他们的内容的,因为对他们来说被正常抓爬不是坏事,反而给自己的网站多了一个搜索曝光位,何乐而不为?

  我给你提供内容,你给我曝光量,这本来是个双赢的事情,但这回头条搜索的操作实在是太乱来了,压根不管你的承受能力,索取无度。。

  而且,遇到这种情况的开发者偏偏又很难找到渠道去和今日头条沟通,只能在自己这边直接禁掉今日搜索的爬虫 IP 了。。。

  搜索引擎公司爬虫被禁,可能直接导致它的搜索结果失去了一条有用结果;而对于禁爬虫的公司来说,他们无疑少了一个渠道的曝光。

  至于头条搜索为什么要这么做,差评君猜测很可能是因为产品急着上线,需要快速扩充内容库,下了个狠手。

  截止到目前,字节跳动或者头条官方都没有出面对这个事情做出辟谣或任何解释。

  有人说,在搜索引擎界,头条算是新入局的小孩儿,如果要拿他这次的 “ 流氓行为 ” 和现在已经数据基础庞大,但是遵守规定的谷歌、百度去比,有点不公平。

  差评君说句实话,字节跳动已经算得上一个大佬,这样的行为对那些无力反抗的小网站来说公平吗?

  大家都遵守 robots 规则是有道理的:做信息分发等业务时,不能竭泽而渔扰乱互联网生态,这样大家相安无事互助互赢。

  现在这么一波暴力抓取,为了节省时间成本逼得网站不得不完全屏蔽掉它,结果整得大家都费力不讨好。

  不管是物资还是财力都更庞大的巨头,更应该成为江湖界守规矩的标杆,老大要是乱了风气,江湖可就彻底糊了。

分享到:
相关阅读
文章评论 · 所有评论
评论请遵守当地法律法规
点击加载更多
© 2016-2018 12小时新闻网 http://www.12hnews.com/ 中国互联网举报中心
违法和不良信息举报:lobtom@163.com