基础工作:
内置元素选择器
序列化和存储数据
处理cookie、HTTP头这些东西的中间件
爬取 Sitemap 或者 RSS
等等
我的需求是爬取 Google Play 市场上的所有 App 的页面链接以及下载数量。
首先确保配置好 Python 2.7, MongoDB 数据库, 以及 Python 的 pip 包管理系统。
然后安装对应的 Python 包并且生成项目模板:
pip install scrapy scrapy-mongodb
scrapy startproject app
cd app
scrapy genspider google
然后把 app/spider/google.py 换成下面的内容:
`# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.linkextractors import LinkExtractor
from app.items import GoogleItem
class GoogleSpider(CrawlSpider):
name = "google"
allowed_domains = ["play.google.com"]
start_urls = [
温馨提示:答案为网友推荐,仅供参考