Tools
首页
画图
音乐
采集
记事
博客
实验室
登录
lypeng
146
文章
11
分类
46
记事
分类
生活-[23]
Linux-[24]
前端-[9]
数据库-[16]
PHP-[31]
git-[7]
其他-[6]
python-[20]
算法-[4]
React-Native-[4]
中草药-[2]
广告位1
广告位2
首页
/ python
返回列表
python案例(三) 百度百科爬虫
阅读:657
发布:2018-06-05
作者:lypeng
查看演示
# baike_spider 爬百度百科相关文章的标题与摘要 感觉教程很好,思路清晰明确,给老师点赞~ ## 教程地址 慕课网:https://www.imooc.com/video/10695?_blank ## 爬虫流程  ## 以下三个为测试文件不用理 1. mysoup.py 2. myspider.py 3. html.txt ## 问题简单说明 1. html_downloader.py下载那里,没有用urllib,使用requests代替,感觉更熟悉与方便 2. html_outputer.py里面不需要对data['title']转码,添加.encode('utf-8')后,反而乱码,变成二进制了 3. html_parser.py里面,去掉soup = BeautifulSoup(html_cont, 'html.parser')最后的编码from-encoding='utf-8',否则报错 4. spider_main.py 开始测试可以写个5或者10,测试结束后,可以改为1000 ## 代码执行效果图  ## git地址 https://github.com/lypeng29/baike_spider.git?_blank ## 效果预览 http://t.dpshop.net/python/spider/output.html?_blank
------本文结束
感谢阅读------
上一篇:
python案例(二) 爬虫入门
下一篇:
将Python的GUI打包成一个exe程序