通过ajax的方式能有效防止网页数据被采集吗

如题所述

    通过ajax能在一定程度上防止网页数据被采集。

    要想弄明白其中的原因,首先要了解网页采集工具的工作原理,现在流行的网页采集工具绝大多数都是读取文档,从文档中采集信息。

    说ajax在一定程度上可以防止网页数据被采集是因为ajax获取的数据一般是通过js生成标签,这种标签是不在文档中的,抓取工具自然就抓取不到这些数据。

    ajax和js虽然利于用户体验,还能在一定程度上防止网页数据被采集,但是却不利于优化,因为搜索引擎爬取工具的工作原理跟网页抓取工具的原理是类似的,网页抓取工具抓取不到的内容,搜索引擎也抓取不到,这样就不利于网站的seo优化了。

    一个网站要有自己的定位,商业型的网站要做seo优化提升搜索量,要尽量不去用ajax加载大量内容;系统型网站注重实用,可以多用ajax提升用户体验;内容原创性较高的网站也可以用ajax和js配合加载文档,防止内容被抓取。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2016-04-18
不能, firebug/chrome控制台这些看得一清二楚. flash加载的抓包工具也能看到,现在甚至还有拿phantomjs这种神器搞采集的..只能监控IP周期内的访问频率再随机输出验证码, 不过,碰上针对性的采集+打码机也没辙本回答被提问者采纳
第2个回答  2016-04-24
通过ajax获取网页内容信息,然后增加一个from来源验证,可以有效的防止采集
1,采集都是直接通过URL访问直接提取内容的,高级的采集规则,可以先提取页面信息的ID,然后再通过ajax获取ajax传递的值
2,增加from来源验证,from验证必须是从本站的其他页面访问跳转过来的,才能查看到ajax信息,不然的话,查看不到ajax信息,就OK了
不过,这个方法也可以采集(目前市面上的采集工具还达不到这个技术,除非是定制的)
第3个回答  2018-07-29
不能, firebug/chrome控制台这些看得一清二楚. flash加载的抓包工具也能看到,现在甚至还有拿phantomjs这种神器搞采集的..只能监控IP周期内的访问频率再随机输出验证码, 不过,碰上针对性的采集+打码机也没辙
第4个回答  2016-06-12
有一定的效果,但是只能增加一定的采集难度。

可以进一步增加采集难度:

1、ajax请求的时候带上临时token并分页;

2、页面混淆js代码,页面代码结构混淆;

3、频繁访问的固定ip进行一定的处理;

4、不想被采集的文字可使用加水印的图片进行展示;

5、使用https请求;
相似回答