如何防止网站内容被别的网站恶意抓取

如题所述

推荐答案 2018-06-28

三种实用的方法。

1、文章头尾加随机广告..
2、文章列表加随机不同的链接标签，比如<a href="",<a class="dds" href=''
3、正文头尾或列表头尾添加

第一种防采集方法:
下面我详细说一下这三种方法的实际应用:

如果全加上，绝对可以有效的防采集,单独加一种就可以让采集者头疼。。
完全可以对付通用的CMS采集程序。。

在采集时,通常都是指定头尾特征从哪到哪过滤.这里我们先讲第一种方法,文章头尾加随机广告..
随机广告是不固定的。

比如你的文章内容是"欢迎访问阿里西西",那么随机广告的加入方法：
<div id="xxx">
随机广告1欢迎访问阿里西西随机广告2
</div>
注:随机广告1和随机广告2每篇文章只要随机显示一个就可以了.

第二种防采集方法:

其它标题或内容...
 <div id="xxx_文章ID">
随机广告1欢迎访问阿里西西随机广告2
<--</div>-->
</div>
<--</div>-->

这是第二种防采集方法。在文章正文页面插入重复特征头尾代码的注释。
当然，这个可以用正则去掉，但足于对付通用的采集系统。。

第三种防采集方法:

第三种加在文章的列表，随便链接样式:
<a href="xxx.html">标题一</a>
<a alt="xxx" href="xxx.html">标题二</a>
<a href='xxx.html'>标题三</a>
<a href=xxx.html>标题四</a>

原理是让采集的人无法抓到列表链接规律,无法批量进行采集.
如果三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的..
如果你还问,如何防止别人复制采集呢?要做到这一点容易,把你的网站的网线拔了,自己给自己看就好了.哈哈.

如果你的文章来自原创,那像可以加上版权声明,别人随意转载时,你可以要求对方删除你有版权的文章.

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/UsUnxUDiUvxiUDxixD9.html

其他回答

第1个回答推荐于2016-10-20

1> 关键信息通过ajax请求来获取，最好是需要带有临时token作为参数的请求。网站在发布的时候需要做javascript代码压缩和混淆，这样程序人员就很难通过阅读代码或者捕获请求来建立模拟采集。这里说的关键信息，是指那种对业界同行来说比较重要的信息，比如说价格等。除了这些关键信息以为的信息就最好不要用ajax请求来显示了，那样不利于SEO优化，搜索引擎的蜘蛛也不能模拟如此复杂ajax请求。另外如果有分页，一定要用ajax请求来分页。具体例子可以看看花瓣网的首页。至于通过表单请求来获取数据，有些采集器已经能模拟带session或者cookie信息的表单请求了，至少Jsoup是可以做到的。

2> 关键信息通过图片来显示。这种是技术含量比较低的防御了，唯一的好处是有利于SEO优化，因为图片通过alt来携带更加丰富的信息。京东的商品价格就是用图片来显示的，采集器采集到的价格信息需要做OCR文字识别，如果在图片的格式做些手脚或者加入混淆信息，那别人采集过去的信息准确度就会大大降低。另外通过图片来显示的另外一个好处就是可以把图片服务器独立出来，然后通过防火墙设置来只允许来自已知域名的请求。

3> 网页代码结构化混淆。简单的说就是关键信息的显示不是规律性的。这种做法对网站开发人员要求比较高。毕竟html是一种结构化的语言，想要通过不规律的html标签勾勒出美观的结构化界面是比较难的，但不是不可能。比如说同一张页面的上商品价格列表，你可以随机用div,li,span等这些文字标签来封装，然后通过定制css来达到规范布局。不同的页面（分页）上价格列表，最顶层的div的id或者class不一样，而且跟其他页面的的id无规律可循。这样做可以让采集程序很难发掘到采集的规律，那么采集的难度就大大加大了，即使能采集，效率也会相当低下。这种做法基本上不影响SEO优化。
不过话说回来，不管你采取哪种防御措施，想防住真正的高手是不可能的，只要能防住98%的人就可以了。剩下的那2%，你如果发现你的数据被采集了，就采取法律措施吧。前段时间大众点评起诉“食神摇一摇”抄袭数据，就是一个很好的例子。本回答被提问者采纳

相似回答

防止恶意爬虫有什么好方法吗?答：2、限制User-Agent字段User-Agent字段能识别用户所使用的操作系统、版本、CPU、浏览器等信息，如果请求来自非浏览器，就能识别其为爬虫，阻止爬虫抓取网站信息。3、限制IP或账号根据业务需求，要求用户通过验证码后才能使用某些功能或权限。当同一IP、同一设备在一定时间内访问网站的次数，系统自动限制其访问浏...

如何应对网络爬虫带来的安全风险答：2. IP限制：可以通过限制同一IP地址的访问频率来防止爬虫的大规模访问。可以设置一个阈值，当同一IP地址在短时间内访问次数超过阈值时，可以暂时禁止该IP地址的访问。3. User-Agent识别：通过识别User-Agent字段，可以判断请求是否来自于爬虫。可以根据User-Agent字段中的信息，对不同的爬虫进行不同的处理...

如何防止网站内部搜索被恶意利用答：对于一般的网站而言，直接屏蔽就行了。当然，方法都有好有坏，像阿里巴巴这种长期比较看重站内搜索关键词排名的，肯定不会让他的TDK都一样，也不会直接屏蔽了，所以不可避免的总会被人恶意利用，然后通过自己的机制去删除，不过这种例子很少。你看百度知道，不也在被恶意利用吗？原文地址： http://www....

怎么进行防抓站答：抓站：所谓的抓站，就是将整个网站保存到本地，即使是网络断开，或者网站被关闭，抓下来的网站依然可以浏览。防抓站其实也就是为了防止恶意被抓取，对你进行攻击。

网站被恶意爬虫抓取,应该怎么办答：在nginx上配置规则，限制来该IP网段的连接数和请求数就可以了啊。

如何防止文章被剽窃答：一、把一篇文章拆分成几篇发这个方法虽然不是最佳，但可以应对一些恶意批量采集的软件，在了解到自己文章是经常被以什么样的方式抄袭之后（通过软件，或者是关注你的人等等）对于此种抄袭方式，我们可以采取的相应对策之一，就是更新半篇文章，等到被别人网站采集后，再更新剩下篇幅的文章。虽然这种方式...

大家正在搜

如何抓取网站里面的数据网站内容抓取工具 php登录网站抓取内容 Vb抓取PDF里的内容网页页面内容抓取网页内容批量抓取如何抓取app内部数据自动抓取内容抓取整个网站