用selenium+phantomjs抓取异步加载的网页内容为什么抓不到

如题所述

推荐答案 2017-07-21

这仅仅是一个post提交，为什么要搞得这么复杂
import requests, json

url = 'http://www.cninfo.com.cn/cninfo-new/disclosure/szse/fulltext'
data = 'stock=300027&searchkey=&category=&pageNum=1&pageSize=15&column=szse_gem&tabName=latest&sortName=&sortType=&limit=&seDate='

headers = {
'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36'
}

r = requests.post(url, data=data, headers=headers)
result = json.loads(r.text)

files = [_[0]['adjunctUrl'] for _ in result['classifiedAnnouncements']]

for file in files:
file_url = 'http://www.cninfo.com.cn/{0}'.format(file)
file_name = file.split('/')[2]
with open(file_name, 'w') as f:
f.write(requests.get(file_url).content)

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/UxsvxnvpUsxiDn9DpDi.html

相似回答

使用phantomjs爬取页面内容时,内存占用过多如何解决答：怎说，我当时写爬虫的时候，也是开了多台gecodriver的进程，但是我用Python监控了cpu的资源管理，占用率太高了我就kill掉一部分的进程，如果是进程本身就死掉当然会kill并且有重启机制。当然最后稳定下来确定了每台机器开几个进程利用率很高。

详解Selenium+PhantomJS+python简单实现爬虫的功能答：安装Selenium时，Windows用户可通过下载源码或使用pip命令安装。PhantomJS则需下载源码并将其路径添加到环境变量中，Linux用户可使用apt-get命令安装。结合Selenium、PhantomJS与Python，可以实现爬虫功能，例如处理手机端URL加载问题，通过设置User-Agent。在使用中，需要注意超时设置，如pageLoadTimeout、setScript...

Selenium和PhantomJS 终极最全使用总结答：这是错误的用法，这里的参数一定要是可以调用的，即这个对象一定有 call () 方法，否则会抛出异常： TypeError: 'xxx' object is not callable switch方法切换的操作 01窗口切换 iframe是html中常用的一种技术，即一个页面中嵌套了另一个网页，selenium默认是访问不了frame中的内容的，对应的解...

求助C#抓取网站中的JS数据答：第一步：打开visual studio 2017 新建一个控制台项目，打开nuget包管理器。第二部：搜索Selenium，安装Selenium.WebDriver。注意：如果要使用代理的话最好安装3.0.0版本。第三步：写下如下图所示的代码。但是执行的时候会报错。原因是找不到PhantomJS.exe。这时候可以去下载一个，也可以继续看第四步。

selenium phantomjs怎么用不了答：用phantomjs进行web界面自动化测试的几个注意点3、需要修改源码service.py的send_remote_shutdown_command，否则driver.quit()　时会报错。详细讨论看：python-PermissionErroriftousePhantomJS大概意思就是要改service的代码，目前找到的也就是这枚法了 ...

Scrapy对接Selenium答：在Middleware中，我们实现process_request()方法，利用PhantomJS加载URL并渲染页面。当接收到Request时，通过PhantomJS加载对应的URL，获取页面源代码并构造一个HtmlResponse对象。这样，Scrapy不再直接下载页面，而是通过Middleware将Response传递给Spider进行解析。Middleware的process_request()方法会触发其他Middleware...

大家正在搜

selenium页面重加载 selenium判断页面加载完成 selenium加载页面太慢 selenium等待页面加载完成 selenium不加载图片 selenium iframe selenium加载慢 selenium浏览网页 selenium获取js数据

用selenium+phantomjs抓取异步加载的网页内容 为什么抓不到

用selenium+phantomjs抓取异步加载的网页内容为什么抓不到