爬虫 crawler 基础 - requests + BeautifulSoup (part2)

延续上一章节,当我们用 requests 取得网站内容后,
就可以使用 BeautifulSoup 来解析网页资料!

select 的使用方式

功能

select()class 使用 " . "id 使用 " # "
範例: 我们要取得标题跟网址,从图片中可以看到内容是包覆在 <div class="block_content">
接着下一层是 <div class="piece clearfix"><h3>、最后出现在 <a> 中。

http://img2.58codes.com/2024/20118435ymNrIgkjcI.png

程式码:

import requestsfrom bs4 import BeautifulSoup     url = 'https://www.ettoday.net/news/focus/政治/'res = requests.get(url).textcontent = BeautifulSoup(res, 'lxml')for i in content.select('.block_content .piece h3 a'):    print(i['title'])    print('https://www.ettoday.net' + i['href'])    print('----------------')

http://img2.58codes.com/2024/20118435YmxFHxvguu.png


find()较适合用在爬取单一内容

新闻中的内文均包在 <div class="story" itemprop="articleBody">
http://img2.58codes.com/2024/20118435k7EsUke2gX.png
程式码:

import requestsfrom bs4 import BeautifulSoup     url = 'https://www.ettoday.net/news/20200811/1781998.htm'res = requests.get(url).textcontent = BeautifulSoup(res, 'lxml')article = content.find('div',{'itemprop':"articleBody"}).get_text(strip=True)print(article)

http://img2.58codes.com/2024/20118435RHPrrkrGvE.png


关于作者: 网站小编

码农网专注IT技术教程资源分享平台,学习资源下载网站,58码农网包含计算机技术、网站程序源码下载、编程技术论坛、互联网资源下载等产品服务,提供原创、优质、完整内容的专业码农交流分享平台。

热门文章