请高手介绍下什么是网络爬虫？使用的大致技术以及其在互联网的用途？

如题所述

第1个回答推荐于2017-11-25

官方的概念自己搜吧，我给你举个简单的例子
比如你想获取互联网上所有的网页，但是网页虽然在那，你却不知道都有哪些，怎么办呢？你可以从一些比较有名的公开页面开始入手，比如搜狐新浪的主页，下载这些页面，然后分析并提取出页面内所有的url，再下载这些url，这样周而复始，就可以获取大量的网页了。因为这个过程就好像蜘蛛在一张巨大的网上爬行，所以就叫爬虫（spider）。
这个概念应该发源于搜索引擎的网页收录，当然也主要应用在搜索界了~追问

感谢回答。

实现的技术难吗？可以自己做个小版本的吗？

追答

基础功能很简单，就是分析每个url的html页面，提取新的url。操作的时候会有很多实际问题，比如网页量是巨大的，你可能需要根据需求筛选哪些url需要进一步爬行；再比如很多站点对短时间内高频的访问是有限制的，你可能还需要做抓取的压力控制等等。具体实现，还是要看你的需求吧。

追问

就是实验、研究性质的呢？

追答

那不麻烦啊，找点搜索引擎入门的书来看看，就可以了

本回答被提问者采纳

第2个回答 2013-05-21

网络爬虫和网络蜘蛛是同义词，已合并。当“蜘蛛”程序出现时，现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”（Computer Robot），电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去，反反复复，不知疲倦。所以，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
主要就是搜索引擎中用到的技术，具体的内容你可以选择在百度百科搜索：《网络蜘蛛》，有详细的解释，用途，以及各种资料！追问

感谢回答。

本回答被网友采纳

相似回答

网络爬虫是什么?答：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。中文名网络爬虫外文名 web crawler 别称网络蜘蛛目的按要求获取万维网信息产生背景 ...

网络爬虫是什么意思?答：例子:最简单的例子是百度，就是一个大爬虫，通过你输入的关键词对网站进行搜索，找到匹配度最高的返回，呈现给用户。爬虫除了能搜索，应用还有很多，比如12306抢票，刷票，批量获取等等可以说在web或者app上所见即所爬。用处:是大数据的基础，爬取，分析，得到可靠结论。

网络爬虫主要能干啥?答：网络爬虫，是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。一般人能访问到的网页，爬虫也都能抓取。所谓的爬虫抓取，也是类似于我们浏览网页。但与普通人上网方式不同，爬虫是可以按照一定的规则，自动的采集信息。举个例子，比如说你从事的是文字编辑工作，需求稿件量大，可是效率很低，最大的...

什么是爬虫和爬虫的基本流程答：爬虫即网络爬虫，英文是Web Spider。翻译过来就是网络上爬行的蜘蛛，如果把互联网看作一张大网，那么爬虫就是在大网上爬来爬去的蜘蛛，碰到想要的食物，就把他抓取出来。我们在浏览器中输入一个网址，敲击回车，看到网站的页面信息。这就是浏览器请求了网站的服务器，获取到网络资源。那么，爬虫也相当于...

Python爬虫是什么?答：网络爬虫为一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。将根据一定的搜索策略从队列中选择下一步要抓取的网页URL...

Python中的网络爬虫有哪些类型呢?答：基于框架的爬虫则使用Python的网络爬虫框架（如Scrapy）来进行开发。这种爬虫具有更强大的功能和更高的灵活性，可以处理大规模的数据采集任务，并提供了更多的功能和扩展性。八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器。如果您需要采集数据，八爪鱼采集器可以为您提供智能识别和...

大家正在搜

网络爬虫有什么用网络爬虫是什么网络爬虫可以做什么 Python网络爬虫技术网络爬虫怎么做网络爬虫的类型网络爬虫的基本步骤网络爬虫python 网络爬虫数据