如何用30行代码爬取Google Play 100万个App的数据

如题所述

推荐答案 2017-10-11

基础工作:
内置元素选择器
序列化和存储数据
处理cookie、HTTP头这些东西的中间件
爬取 Sitemap 或者 RSS
等等
我的需求是爬取 Google Play 市场上的所有 App 的页面链接以及下载数量。
首先确保配置好 Python 2.7, MongoDB 数据库, 以及 Python 的 pip 包管理系统。
然后安装对应的 Python 包并且生成项目模板：
pip install scrapy scrapy-mongodb
scrapy startproject app
cd app
scrapy genspider google
然后把 app/spider/google.py 换成下面的内容：
`# -*- coding: utf-8 -*-
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.linkextractors import LinkExtractor
from app.items import GoogleItem
class GoogleSpider(CrawlSpider):
name = "google"
allowed_domains = ["play.google.com"]
start_urls = [

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/nnxUDnD9nxvnDxxvp9i.html

其他回答

第1个回答 2023-08-02

我是八爪鱼采集器的客服助手，无法提供具体的代码编写。但是，八爪鱼采集器可以帮助您快速抓取互联网上的各种数据，包括Google Play上的App数据。您可以使用八爪鱼采集器的可视化操作界面，通过设置采集规则，自动抓取Google Play上的App数据。八爪鱼采集器支持智能识别和灵活的自定义采集规则设置，帮助您快速获取所需的数据。了解更多八爪鱼采集器的功能与合作案例，请前往官网了解更多详情。

相似回答

Python爬虫是什么?答：Python作为一门编程语言而纯粹的自由软件，以简洁清晰的语法和强制使用空白符号进行语句缩进的特点受到程序员的喜爱。用不同编程语言完成一个任务，C语言一共要写1000行代码，Java要写100行代码，而Python只需要20行，用Python来完成编程任务代码量更少，代码简洁简短而且可读性强。Python非常适合开发网络爬虫...

如何自学Python爬虫技术,花式赚钱答：1、Notepad++，简单，但是提示功能不强 2、PyCharm，用于一般IDE具备的功能，比如，调试、语法高亮、代码跳转、等等，同时可用于Django开发，支持Google App Engine，更酷的是，PyCharm支持IronPython！好的开发工具是一切工作完成的前提。

如何查找手机Google Play无法登陆的问题答：（1）找到“Google Play 服务”，卸载更新和清除数据 a. 右上角存在3个点图标，点击此图标并选择卸载更新；b. 若停用按钮可选择，点击“停用”，然后尝试卸载；c. 进入存储 > 管理空间，选择“清除所有数据”。4/4 （2）找到“Google服务框架”，进入存储，并选择“删除数据”；（3）找到...

如何删除google play服务?答：可以进入设置-更多设置-应用程序-全部-找到需要卸载的软件进程卸载，Funtouch OS 9.2及以上系统（含部分 iQOO Monster UI ）需进入设置—应用与权限—应用管理中卸载。部分机型系统默认隐藏了Google Play商店的图标，只有手动更新Google Play商店后，桌面才会显示图标。可以可以进入设置-更多设置-应用程序-...

用安卓手机上google play,提示“您还没使用此电子邮件帐户在设备上访...答：原因可能是账号密码输入错误所导致的。Google帐户的用户名由一个电子邮件地址表示，用户可以通过注册Gmail来得到一个Google帐户，也可以使用已有的电子邮件申请。在注册了Google帐户之后，用户可以在账户中添加其它的谷歌系列产品。与Google帐户绑定的每一个程序都有自己的设置，但账户的设置是独立存储的。

如何删除google play服务,play商店可以删除吗答：5、在弹出的子界面内点击清楚所有数据，GooglePlay服务所占用的空间就会变得很小。/iknow-pic.cdn.bcebos.com/80cb39dbb6fd5266fc9fa815a418972bd407367e"target="_blank"title="点击查看大图"class="ikqb_img_alink">/iknow-pic.cdn.bcebos.com/80cb39dbb6fd5266fc9fa815a418972bd407367e?x-bce...

大家正在搜

python爬取网页数据代码爬虫爬取个人信息代码爬虫爬取图片的代码简单的python爬虫代码 python爬虫万能代码爬取全站的代码爬虫爬取数据 python爬虫代码大全爬虫python代码