爬虫 crawler 基础 - requests + BeautifulSoup (part2)-58码农网

延续上一章节，当我们用 requests 取得网站内容后，
就可以使用 BeautifulSoup 来解析网页资料！

select 的使用方式

功能

select()class 使用 " . "id 使用 " # "
範例：我们要取得标题跟网址，从图片中可以看到内容是包覆在 <div class="block_content">，
接着下一层是 <div class="piece clearfix">、<h3>、最后出现在 <a> 中。

程式码：

import requestsfrom bs4 import BeautifulSoup     url = 'https://www.ettoday.net/news/focus/政治/'res = requests.get(url).textcontent = BeautifulSoup(res, 'lxml')for i in content.select('.block_content .piece h3 a'):    print(i['title'])    print('https://www.ettoday.net' + i['href'])    print('----------------')

find()较适合用在爬取单一内容

新闻中的内文均包在 <div class="story" itemprop="articleBody">

程式码：

import requestsfrom bs4 import BeautifulSoup     url = 'https://www.ettoday.net/news/20200811/1781998.htm'res = requests.get(url).textcontent = BeautifulSoup(res, 'lxml')article = content.find('div',{'itemprop':"articleBody"}).get_text(strip=True)print(article)

select 的使用方式

功能

给这篇文章的作者打赏

关于作者: 网站小编

相关文章

HBO Max vs.Netflix：当你负担不起两者时如何选择

课内笔记整理---作业系统实务(资安相关篇)

excel vba捞网页数据问题

热门文章

1爬虫 crawler 基础 - requests + BeautifulSoup (part2)

2bat 参数使用

3bat 产生档案 方法1 方法2

4[实战之ASP.NET] RDLC输出checkbox字型

5[Android CI] Fastlane 与 Slack Bot 之间的绑定

3bat 产生档案方法1 方法2