你的位置：在路上 > 工作和技术 > ProgrammingLanguage > Python > 【记录】演示如何实现简单爬虫：用Python提取百度首页中百度热榜内容列表

【记录】演示如何实现简单爬虫：用Python提取百度首页中百度热榜内容列表

Python crifan 5年前 (2020-07-30) 804浏览 0评论

之前已写关于爬虫的成套教程：

爬取你要的数据：爬虫技术

http://book.crifan.com/books/crawl_your_data_spider_technology/website

现在希望去演示：

想找个简单的例子，演示如何从无到有去实现整个爬虫。

以加深理解和真正掌握写爬虫的基本逻辑和概念。

然后找到一个例子：

爬取

百度首页：

百度一下，你就知道

https://www.baidu.com/

中的百度热榜的内容的标题的列表：

希望输出的：

一个字符串列表：

武汉北京大连的疫情发现同一问题
潘玮柏工作室律师声明
平安经涉事副厅长作深刻检查
五角大楼宣布撤离1.2万驻德美军
海底捞回应门店筷子检出大肠菌群
山西教育厅回应仝卓恢复成绩要求

保存格式，暂定为csv文件。

入手之前，先要了解清楚：

写爬虫的思路

先去（用工具）分析流程

此处：用Chrome中开发者工具去分析

用Chrome的开发者工具分析百度首页的内容加载的流程

再去用代码实现逻辑

此处：用Python代码实现
要做的事情可以分成3个步骤

Download=下载：html网页源码

期间可能涉及

多次利用Chrome的开发者工具去调试页面内容加载逻辑

Parse=分析：分析html中源码中我们要的内容的提取规则是什么

需要事先

分析要抓取的内容，所对应的规则

然后用代码实现规则，提取内容

Save=保存：把抓取到的内容保存出来

下面就开始：

【已解决】Mac中用Chrome开发者工具分析百度首页的百度热榜内容加载逻辑

以及：

【已解决】用Python代码获取到百度首页源码并提取保存百度热榜内容列表

理论上，除了Python，用其他语言，比如Java，PHP，Go等等，也都是可以实现爬虫的效果的。

只不过由于生态，第三方库等原因，Python是目前用来爬虫开发最便捷的，最省心的语言了。

【后记 20200731】

接着再去实现：

【已解决】用Python纯内置库无第三方库实现爬虫爬取百度热榜内容列表

以及：

【已解决】用Python爬虫框架PySpider实现爬虫爬取百度热榜内容列表

转载请注明：在路上 » 【记录】演示如何实现简单爬虫：用Python提取百度首页中百度热榜内容列表

与本文相关的文章

分类

85 queries in 0.537 seconds, using 20.21MB memory