Python爬虫解析网页的4种方式

发布时间：2021-03-05 17:18:30 所属栏目：业界来源：互联网

导读：实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的方法，各有千秋，适合在不同的场合下使用。首先我们随意找到一个网址，这时我脑子里闪过了豆瓣这个网站。嗯，毕竟是用

实是一堆HTML，然后再对这些HTML内容进行解析，按照自己的想法提取出想要的数据，所以今天我们主要来讲四种在Python中解析网页HTML内容的方法，各有千秋，适合在不同的场合下使用。

首先我们随意找到一个网址，这时我脑子里闪过了豆瓣这个网站。嗯，毕竟是用Python构建的网站，那就拿它来做示范吧。

我们找到了豆瓣的Python爬虫小组主页，看起来长成下面这样。

析，我们发现实际上我们想要的内容在整个HTML代码的这个区域里，那我们只需要想办法把这个区域内的内容拿出来就差不多了。

现在开始写代码。

1: 正则表达式大法

正则表达式通常被用来检索、替换那些符合某个模式的文本，所以我们可以利用这个原理来提取我们想要的信息。

参考以下代码。

代码第6行和第7行，需要手动指定一下header的内容，装作自己这个请求是浏览器请求，否则豆瓣会视为我们不是正常请求会返回HTTP 418错误。

在第7行我们直接用requests这个库的get方法进行请求，获取到内容后需要进行一下编码格式转换，同样是因为豆瓣的页面渲染机制的问题，正常情况下，直接获取requests content的内容即可。

Python模拟浏览器发起请求并解析内容代码:

2: requests-html

这个库其实是我个人最喜欢的库，作则是编写requests库的网红程序员 Kenneth Reitz，他在requests的基础上加上了对html内容的解析，就变成了requests-html这个库了。

下面我们来看看范例：

（编辑：淮安站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!