python爬取知乎live_用Zhihu-OAuth库轻松爬取知乎各类数据

去年（手动滑稽）某日想爬取知乎特定话题下的全部回答数据，于是翻出以前写的知乎话题爬虫跑运行了下，没想到遇到一个一直没能解决的bug，貌似是抓包到的API返回的JSON数据格式有问题，于是遭遇爬知乎的滑铁卢。幸而想起有个叫“Zhihu-OAuth”的库，于是了解了下并上手一用，还蛮方便的，于是介绍给想爬取知乎数据的小伙伴们。这是知乎用户“7sDream”开源的Python库，github地址。其中能

weixin_39857792

241人浏览 · 2020-11-26 05:34:55

weixin_39857792 · 2020-11-26 05:34:55 发布

这是知乎用户“7sDream”开源的Python库，github地址。

d89d2ae8fe57

其中能爬取的数据非常全、非常丰富：用户动态、答案、文章、收藏夹、专栏、评论、首页信息流、知乎live、特定用户的信息、分享、问题、话题、私信会话和私信信息等等全部囊括在内。

d89d2ae8fe57

使用的方法也很简单，先是安装库，zhihu_oauth 支持 Python 2 和 Python 3：

pip install zhihu-oauth

接下来以爬取知乎特定话题下的全部回答为例，简单介绍下该库用法。以下为登录知乎，并保存token的代码。

d89d2ae8fe57

其中账号和密码需要每个人自己输入。账号为邮箱或手机号（前缀"+86"）。

d89d2ae8fe57

后续就可以直接加载token来登录知乎。本回爬取的知乎话题为“长大是什么感觉？”

链接为：https://www.zhihu.com/question/27987434

ID为：“27987434”。

d89d2ae8fe57

具体代码如下，其中answers为生成器，需要用for循环来提取每个回答的数据，具体都能提取那些数据可以参见：Answer类的文档说明。包含了几乎所有可以提取的数据。

d89d2ae8fe57

代码里注释掉了答主的诸多信息，因为发现提取时很容易被知乎反爬限制，而显示IP或账号异常，从而需要输入验证码。

d89d2ae8fe57

最后保存数据用的是pandas库，全文代码也是在jupyter notebook里一步步运行的。此处因人而异，其他存储方式亦可。

本文简单介绍下Zhihu-OAuth库，因为上手还蛮简单的，很推荐想爬知乎数据而不得的小伙伴尝试下。后续看情况会更详细的讲下其他用法，看大家觉得需要吗？

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

第二届openEuler生态大会（中国·湖南）成功举办

10月30日，第二届openEuler生态大会（中国·湖南）成功举办。

开放原子开发者工作坊

“小满”安全车控操作系统正式在AtomGit开源

10月24日，由中国汽车工业协会指导，普华基础软件股份有限公司主办的“小满”安全车控操作系统开源发布会暨共建计划说明会成功举行。普华基础软件宣布将安全车控操作系统“小满”（简称“小满”）V24.10源代码正式在开放原子开源基金会（简称“基金会”）旗下AtomGit开源协作平台开源，并在AtomGit平