如何使用python爬取知乎数据并做简单分析

如题所述

举报该问题

推荐答案 2017-08-16

ä¸ãä½¿ç¨çææ¯æ ï¼
ç¬è«ï¼python27 +requests+json+bs4+time
åæå·¥å·ï¼ ELKå¥ä»¶
å¼åå·¥å·ï¼pycharm
æ°æ®ææç®åçå¯è§ååæ
1.æ§å«åå¸
0 ç»¿è²ä»£è¡¨çæ¯ç·æ§ ^ . ^
1 ä»£è¡¨çæ¯å¥³æ§
-1 æ§å«ä¸ç¡®å®
å¯è§ç¥ä¹çç¨æ·ç·æ§é¢å¤ã
äºãç²ä¸æå¤çtop30
ç²ä¸æå¤çåä¸ååï¼ä¾æ¬¡æ¯å¼ ä½³ç®ãæå¼å¤ãé»ç»§æ°ççï¼å»ç¥ä¹ä¸æ¥è¿äºäººï¼ä¹å·®ä¸å¤è¿ä¸ªæåï¼è¯´æç¬åçæ°æ®å·æä¸å®çè¯´æåã
ä¸ãåæç« æå¤çtop30
åãç¬è«æ¶æ
ç¬è«æ¶æå¾å¦ä¸ï¼
è¯´æï¼
éæ©ä¸ä¸ªæ´»è·çç¨æ·ï¼æ¯å¦æå¼å¤ï¼çurlä½ä¸ºå¥å£url.å¹¶å°å·²ç¬åçurlåå¨setä¸ã
æååå®¹ï¼å¹¶è§£æè¯¥ç¨æ·çå³æ³¨çç¨æ·çåè¡¨urlï¼æ·»å è¿äºurlå°å¦ä¸ä¸ªsetä¸ï¼å¹¶ç¨å·²ç¬åçurlä½ä¸ºè¿æ»¤ã
è§£æè¯¥ç¨æ·çä¸ªäººä¿¡æ¯ï¼å¹¶ååå°æ¬å°ç£çã
logstashåå®æ¶çè·åæ¬å°ç£ççç¨æ·æ°æ®ï¼å¹¶ç»elsticsearchkibanaåelasticsearchéåï¼å°æ°æ®è½¬æ¢æç¨æ·åå¥½çå¯è§åå¾å½¢ã
äºãç¼ç
ç¬åä¸ä¸ªurl:
è§£æåå®¹ï¼
åæ¬å°æä»¶ï¼
ä»£ç è¯´æï¼
* éè¦ä¿®æ¹è·årequestsè¯·æ±å¤´çauthorizationã
* éè¦ä¿®æ¹ä½ çæä»¶åå¨è·¯å¾ã
æºç ä¸è½½ï¼ç¹å»è¿éï¼è®°å¾starå¦ï¼https : // github . com/forezp/ZhihuSpiderManåãå¦ä½è·åauthorization
æå¼chormeï¼æå¼https : // www. zhihu .com/ï¼
ç»éï¼é¦é¡µéä¾¿æ¾ä¸ªç¨æ·ï¼è¿å¥ä»çä¸ªäººä¸»é¡µï¼F12(æé¼ æ å³é®ï¼ç¹æ£æ¥)ä¸ãå¯æ¹è¿çå°æ¹
å¯å¢å çº¿ç¨æ± ï¼æé«ç¬è«æç
åå¨urlçæ¶åææç¨çset(),å¹¶ä¸éç¨ç¼åçç¥ï¼æå¤åªå2000ä¸ªurlï¼é²æ¢ååä¸å¤ï¼å¶å®å¯ä»¥åå¨redisä¸ã
åå¨ç¬ååçç¨æ·æè¯´éåçæ¯æ¬å°æä»¶çæ¹å¼ï¼æ´å¥½çæ¹å¼åºè¯¥æ¯åå¨mongodbä¸ã
å¯¹ç¬åçç¨æ·åºè¯¥æä¸ä¸ªä¿¡æ¯çè¿æ»¤ï¼æ¯å¦ç¨æ·çç²ä¸æ°éè¦å¤§ä¸100æèåä¸è¯é¢æ°å¤§äº10çæåå¨ãé²æ¢æåäºè¿å¤çåµå°¸ç¨æ·ã
å«ãå³äºELKå¥ä»¶
å³äºelkçå¥ä»¶å®è£å°±ä¸è®¨è®ºäºï¼å·ä½è§å®ç½å°±è¡äºãç½ç«ï¼https : // www . elastic . co/å¦å¤logstashçéç½®æä»¶å¦ä¸ï¼
ä»ç¬åçç¨æ·æ°æ®å¯åæçå°æ¹å¾å¤ï¼æ¯å¦å°åãå¦åãå¹´é¾ççï¼æå°±ä¸ä¸ä¸åä¸¾äºãå¦å¤ï¼æè§å¾ç¬è«æ¯ä¸ä»¶éå¸¸æææçäºæï¼å¨è¿ä¸ªåå®¹æ¶è´¹åçº§çå¹´ä»£ï¼å¦ä½å¨å¹¿éçäºèç½çæ°æ®æµ·æ´ä¸æææä»·å¼çæ°æ®ï¼æ¯ä¸ä»¶å¼å¾æèåéä¸æè·µè¡çäºæã

温馨提示：答案为网友推荐，仅供参考

当前网址：http://66.wendadaohang.com/zd/siipUDspxx2vDsxiis.html

第1个回答 2017-08-15

返照入闾巷，

相似回答

python爬虫登录知乎后怎样爬取数据答：比较简单的方式是利用这个网站的 cookie。cookie 相当于是一个密码箱，里面储存了用户在该网站的基本信息。在一次登录之后，网站会记住你的信息，把它放到cookie里，方便下次自动登录。所以，要爬取这类网站的策略是：先进行一次手动登录，获取cookie，然后再次登录时，调用上一次登录得到的cookie，实现自动...

Python爬取知乎与我所理解的爬虫与反爬虫答：在爬取知乎数据时，需要注意以下几点：1. 使用合法的方式进行数据爬取，遵守知乎的相关规定和协议。2. 设置合理的爬取频率，避免对知乎服务器造成过大的负担。3. 使用合适的请求头信息，模拟真实的浏览器行为，避免被网站识别为爬虫。4. 处理反爬虫机制，如验证码、登录等，以确保能够成功获取数据。八...

如何用python爬取网站数据答：用python爬取网站数据方法步骤如下：1.首先要明确想要爬取的目标。对于网页源信息的爬取首先要获取url,然后定位的目标内容。2.先使用基础for循环生成的url信息。3.然后需要模拟浏览器的请求(使用request.get(url)),获取目标网页的源代码信息(req.text)。4.目标信息就在源代码中,为了简单的获取目标信息...

如何使用爬虫获取网页数据 python答：以下是使用Python编写爬虫获取网页数据的一般步骤：1. 安装Python和所需的第三方库。可以使用pip命令来安装第三方库，如pip install beautifulsoup4。2. 导入所需的库。例如，使用import语句导入BeautifulSoup库。3. 发送HTTP请求获取网页内容。可以使用Python的requests库发送HTTP请求，并获取网页的HTML内容。4...

如何抓取网页上的数据(如何使用Python进行网页数据抓取)答：一、安装Python和相关库要使用Python进行网页数据抓取，首先需要安装Python解释器。可以从Python官方网站下载并安装最新的Python版本。安装完成后，还需要安装一些相关的Python库，如requests、beautifulsoup、selenium等。可以使用pip命令来安装这些库，例如在命令行中输入以下命令来安装requests库：```pipinstall...

python爬虫如何分析一个将要爬取的网站?答：爬取网页数据，需要一些工具，比如requests，正则表达式，bs4等，解析网页首推bs4啊，可以通过标签和节点抓取数据。正巧，我最近发布了一篇文章就是抓取网页数据分析的，有完整的抓取步骤，你可以看一下?不好意思给自己打了一下广告?

大家正在搜

python爬取知乎 Python爬去知乎问题 python书籍推荐知乎 python cookbook 如何爬去知乎专栏 Python知乎 python有用吗 python为什么叫爬虫知乎爬取

如何爬取了知乎用户信息，并做了简单的分析 python

如何利用python 爬取知乎上面的数据

python大概需要学多久才能做简单的数据分析和爬取？

如何用Python爬取数据？

python爬虫登录知乎后怎样爬取数据

如何使用python爬取数据并进行可视化显示