请选择 进入手机版 | 继续访问电脑版
本文用beautifulsoup4库抓取stackoverflow上python最新问题,存储到json文件。前半部分通过抓取多个字段练习beautifulsoup的使用,后半部分介绍json模块
关于beautifulsoup的使用可以参考这篇文章BeautifulSoup全面总结
爬虫代码
  1. [/code]抓取结果如下图所示
  2. beautifulsoup+json抓取stackoverflow实战-1.jpg
  3. 上面代码的基础已经在前面文章中讲过,有问题可以参考下面文章
  4. [list]爬虫基本原理beautifulsoup详解类和生成器的使用
  5. [/list][size=5][b]json模块介绍[/b][/size]
  6. json是一个内置模块,无需自己安装,模块主要就用两个函数json.dumps和json.loads
  7. [list]前者可以把一个list dict的python对象变成样子相同的字符串,这样转化一般用于存储到json文件中,因为json文件的形式和list dict是一样的,而存储文件需要使用字符串(或者bytes)后者将list dict样子的字符串转化为python对象,如果读取json文件,得到的就是这样的字符串,通过这个转化将其变成python可以处理的list dict
  8. [/list]示例代码展示如下
  9. [code]
复制代码
存储到文件时,为了让字符串展示更好看一些,还有编码问题,一般加参数如下
存储到文件
  1. [/code]参数indent指定一些缩进,不然写到文件里所有字符都堆在一起不方便看。
  2. ensure_ascii则是存储内容涉及中文时需要指定(上面抓取stackoverflow没有中文,所以其实是不需要指定的,只是为了引出这个参数才这么用)
  3. 从文件中读取
  4. [code]
复制代码
专栏信息

专栏主页:python编程
专栏目录:目录
爬虫目录:爬虫系列目录
版本说明:软件及包版本说明
分享到 :
0 人收藏

Archiver|手机版|小黑屋|翁笔

© 2001-2018 Wengbi.com

返回顶部