请高手介绍下什么是网络爬虫?使用的大致技术以及其在互联网的用途?

如题所述

第1个回答  推荐于2017-11-25
官方的概念自己搜吧,我给你举个简单的例子
比如你想获取互联网上所有的网页,但是网页虽然在那,你却不知道都有哪些,怎么办呢?你可以从一些比较有名的公开页面开始入手,比如搜狐新浪的主页,下载这些页面,然后分析并提取出页面内所有的url,再下载这些url,这样周而复始,就可以获取大量的网页了。因为这个过程就好像蜘蛛在一张巨大的网上爬行,所以就叫爬虫(spider)。
这个概念应该发源于搜索引擎的网页收录,当然也主要应用在搜索界了~追问

感谢回答。

实现的技术难吗?可以自己做个小版本的吗?

追答

基础功能很简单,就是分析每个url的html页面,提取新的url。操作的时候会有很多实际问题,比如网页量是巨大的,你可能需要根据需求筛选哪些url需要进一步爬行;再比如很多站点对短时间内高频的访问是有限制的,你可能还需要做抓取的压力控制等等。具体实现,还是要看你的需求吧。

追问

就是实验、研究性质的呢?

追答

那不麻烦啊,找点搜索引擎入门的书来看看,就可以了

本回答被提问者采纳
第2个回答  2013-05-21
网络爬虫 和网络蜘蛛是同义词,已合并。当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
主要就是搜索引擎中用到的技术,具体的内容你可以选择在百度百科搜索:《网络蜘蛛》,有详细的解释,用途,以及各种资料!追问

感谢回答。

本回答被网友采纳
相似回答