当前位置: 首页 > news >正文

常用python爬虫框架介绍

文章目录

  • 前言
    • 1. Scrapy
    • 2. BeautifulSoup 与 Requests 组合
    • 3. Selenium
    • 4. PySpider


前言

Python 有许多优秀的爬虫框架,每个框架都有其独特的特点和适用场景。以下为你详细介绍几个常用的 Python 爬虫框架:


Python 3.13.2 安装教程(附安装包):https://blog.csdn.net/2501_91193507/article/details/146770362

Python 3.13.2下载链接:https://pan.quark.cn/s/1bddf43c0c2f

1. Scrapy

  • 简介:Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它可以应用在数据挖掘、信息处理或存储历史数据等一系列的程序中。其功能强大,提供了数据抓取、数据处理、数据存储等一系列完整的解决方案。
  • 特点
    高效性:基于异步网络库 Twisted 实现,能够高效地处理大量的并发请求,大大提高了爬取效率。
    组件化设计:具有高度模块化的架构,各个组件(如调度器、下载器、爬虫、管道等)之间相互独立又协同工作,方便用户根据需求进行定制和扩展。
    数据处理方便:提供了强大的选择器(如 XPath、CSS 选择器)用于提取网页中的数据,还支持多种数据格式(如 JSON、CSV、XML 等)的存储。
    中间件支持:支持多种中间件,如下载中间件和爬虫中间件,可以方便地对请求和响应进行处理,例如设置代理、处理请求头、处理异常等。
    适用场景:适用于大规模、高效率的爬虫项目,如搜索引擎数据采集、电商网站商品信息抓取等。
    示例代码
import scrapyclass QuotesSpider(scrapy.Spider):name = "quotes"start_urls = ['https://quotes.toscrape.com',]def parse(self, response):for quote in response.css('div.quote'):yield {'text': quote.css('span.text::text').get(),'author': quote.css('small.author::text').get(),'tags': quote.css('div.tags a.tag::text').getall(),}next_page = response.css('li.next a::attr(href)').get()if next_page is not None:yield response.follow(next_page, self.parse)
你可以使用以下命令运行这个爬虫:
bash
scrapy runspider quotes_spider.py -o quotes.json

2. BeautifulSoup 与 Requests 组合

  • 简介:严格来说,BeautifulSoup 是一个用于解析 HTML 和 XML 文档的库,而 Requests 是一个用于发送 HTTP 请求的库。它们通常一起使用,作为一个轻量级的爬虫解决方案。
  • 特点
    简单易用:API 设计简洁明了,容易上手,对于初学者来说非常友好。
    灵活性高:可以根据具体需求自由组合和定制爬取逻辑,不受框架的限制。
    广泛的解析支持:BeautifulSoup 支持多种解析器(如 Python 内置的 html.parser、lxml 等),可以根据不同的需求选择合适的解析器。
    适用场景:适用于小规模、简单的爬虫任务,如抓取单个网页的数据、简单的数据采集等。
    示例代码
import requests
from bs4 import BeautifulSoupurl = 'https://quotes.toscrape.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')quotes = soup.find_all('div', class_='quote')
for quote in quotes:text = quote.find('span', class_='text').textauthor = quote.find('small', class_='author').textprint(f'Quote: {text}, Author: {author}')

3. Selenium

  • 简介:Selenium 是一个用于自动化浏览器操作的工具,它可以模拟用户在浏览器中的各种行为,如点击、输入、滚动等。在爬虫领域,Selenium 常用于处理动态网页,即需要通过 JavaScript 动态加载内容的网页。
  • 特点
    处理动态内容:能够模拟浏览器的渲染过程,获取动态加载的网页内容,解决了许多传统爬虫无法处理的问题。
    跨浏览器支持:支持多种主流浏览器(如 Chrome、Firefox、Safari 等),可以根据需求选择合适的浏览器进行自动化操作。
    丰富的操作方法:提供了丰富的 API 用于模拟用户的各种操作,如点击按钮、填写表单、切换页面等。
    适用场景:适用于需要处理动态网页的爬虫任务,如爬取电商网站的商品详情页(需要点击 “查看更多” 按钮才能显示完整信息)、社交媒体网站的动态内容等。
    示例代码
from selenium import webdriver
from selenium.webdriver.common.by import Bydriver = webdriver.Chrome()
driver.get('https://quotes.toscrape.com')quotes = driver.find_elements(By.CSS_SELECTOR, 'div.quote')
for quote in quotes:text = quote.find_element(By.CSS_SELECTOR, 'span.text').textauthor = quote.find_element(By.CSS_SELECTOR, 'small.author').textprint(f'Quote: {text}, Author: {author}')driver.quit()

4. PySpider

  • 简介:PySpider 是一个国产的、轻量级的爬虫框架,它提供了一个可视化的界面,方便用户进行爬虫的创建、调试和管理。
  • 特点
    可视化界面:具有直观的 Web 界面,用户可以通过浏览器访问和操作,无需编写复杂的命令行脚本。
    分布式支持:支持分布式爬取,可以利用多台机器的资源提高爬取效率。
    自动重试和断点续爬:具备自动重试机制,当请求失败时会自动重试;同时支持断点续爬,在爬取过程中中断后可以继续从上次中断的位置开始爬取。
    适用场景:适用于需要快速开发和部署爬虫的场景,尤其是对于非专业的开发者来说,其可视化界面降低了开发门槛。
    示例代码(通过 Web 界面创建爬虫)
    启动 PySpider 服务:在命令行中运行 pyspider all。
    打开浏览器,访问 http://localhost:5000,进入 PySpider 的 Web 界面。
    在 Web 界面中创建一个新的爬虫,编写爬取逻辑:
from pyspider.libs.base_handler import *class Handler(BaseHandler):crawl_config = {}@every(minutes=24 * 60)def on_start(self):self.crawl('https://quotes.toscrape.com', callback=self.index_page)@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('div.quote').items():self.crawl(each.attr.href, callback=self.detail_page)@config(priority=2)def detail_page(self, response):return {"url": response.url,"title": response.doc('title').text(),}

相关文章:

  • 测试第四课---------性能测试工具
  • gbase8s触发器使用
  • 使用 LangChain + Higress + Elasticsearch 构建 RAG 应用
  • Python 获取淘宝买家订单列表(buyer_order_list)接口的详细指南
  • 【C++】新手入门指南(下)
  • 建造者模式详解及其在自动驾驶场景的应用举例(以C++代码实现)
  • C++(初阶)(十二)——stack和queue
  • container_memory_working_set_bytes` 与 `container_memory_usage_bytes` 的区别
  • C++ 学习指南
  • Redis 处理读请求
  • 安全文件共享实际上是什么样的呢?
  • 解决找不到字体的问题
  • windows搭建xwiki17服务器
  • [Java · 铢积寸累] 数据结构 — 数组类型 - Arrays 工具类详解
  • 稳定PCDN运营效率
  • 【leetcode100】零钱兑换Ⅱ
  • 物联网赋能玻璃制造业:实现设备智能管理与生产协同
  • Ubuntu 上安装 Conda
  • 安装 Conda 环境
  • csv数据的写入
  • 上海一小学百名学生齐聚图书馆:纸质书的浪漫AI无法取代
  • 中国乒乓球队公示多哈世乒赛参赛名单,王楚钦孙颖莎混双重组
  • 2025中国互联网企业家座谈会在京召开
  • 为什么要研制大型水陆两栖飞机?AG600总设计师给出答案
  • 韩国一战机飞行训练中掉落机炮吊舱和空油箱
  • 海康威视:去年海外主业和机器人等创新业务占比首次超50%