如何用30行代码爬取Google Play 100万个App的数据

如题所述

基础工作:
内置元素选择器
序列化存储数据
处理cookie、HTTP些东西间件
爬取 Sitemap 或者 RSS
等等
我需求爬取 Google Play 市场所 App 页面链接及载数量
首先确保配置 Python 2.7, MongoDB 数据库, 及 Python pip 包管理系统
安装应 Python 包并且项目模板:
pip install scrapy scrapy-mongodb
scrapy startproject app
cd app
scrapy genspider google
app/spider/google.py 换面内容:
`# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.linkextractors import LinkExtractor
from app.items import GoogleItem
class GoogleSpider(CrawlSpider):
name = "google"
allowed_domains = ["play.google.com"]
start_urls = [
温馨提示:答案为网友推荐,仅供参考
相似回答