当前位置: 首页 > news >正文

基于Python爬虫的豆瓣电影信息爬取(可以根据选择电影编号得到需要的电影信息)

# 豆瓣电影信息爬虫(展示效果如下图所示:)

这是一个功能强大的豆瓣电影信息爬虫程序,可以获取豆瓣电影 Top 250 的详细信息。

## 功能特点

- 自动爬取豆瓣电影 Top 250 的所有电影信息

- 支持分页获取,每页 25 部电影,共 10 页

- 获取每部电影的详细信息,包括:

  - 标题

  - 评分

  - 导演

  - 主演

  - 类型

  - 上映日期

  - 剧情简介

- 自动保存电影信息为 JSON 文件

- 内置反爬虫机制,添加随机延时

- 支持连续查询多部电影

## 安装依赖

在运行程序之前,请先安装所需的依赖:

```bash

pip install -r requirements.txt

```

## 使用方法

1. 运行程序:

```bash

python app1.py

```

2. 程序会首先获取豆瓣电影 Top 250 的列表(这可能需要一些时间)

3. 显示带编号的电影列表(1-250)

4. 输入电影编号(1-250)来查询具体电影信息

5. 查询结果会显示在控制台,并自动保存为 JSON 文件

6. 可以继续查询其他电影,或输入 'q' 退出

## 输出文件

- 每部电影的信息会保存为单独的 JSON 文件

- 文件名格式:`电影名称.json`

- JSON 文件包含完整的电影信息,包括标题、评分、导演、主演等

## 注意事项

- 请确保网络连接正常

- 由于豆瓣网站的反爬虫机制,程序添加了随机延时(1-3秒)

- 如果遇到网络问题,程序会继续尝试获取其他电影的信息

- 建议不要频繁运行程序,以免被豆瓣封禁 IP

- 所有电影信息都会保存在当前目录下

## 依赖版本

- requests==2.31.0

- beautifulsoup4==4.12.2

效果展示:

相关文章:

  • GPLT-2025年第十届团体程序设计天梯赛总决赛题解(2025天梯赛题解,共计266分)
  • -PHP 反序列化POP 链构造魔术方法流程漏洞触发条件属性修改
  • Linux 管道理解
  • cf | Common Multiple
  • 来访登记二维码生成
  • deepseek-php-client开源程序是强力维护的 PHP API 客户端,允许您与 deepseek API 交互
  • Linux ———— 编译器g++/gcc
  • 【3.1】pod详解——Pod的结构
  • 32单片机——GPIO寄存器
  • Java 异常 SSLException: fatal alert: protocol_version 全解析与解决方案
  • Python内置函数-aiter()
  • URI、URL与URN详解概念介绍
  • Python内置函数---bool()
  • 【Deepseek学习大模型推理】MOONCAKE: A KVCache-centric Architecture调度(中)调度
  • gem5教程第六章 为ARM扩展gem5 这也是改进gem5的一个基础
  • 深度学习--卷积神经网络调整学习率
  • java六人打分
  • SQL进阶知识:五、存储过程和函数
  • python动态注册执行action
  • 香港科技大学广州|先进材料学域博士招生宣讲会—天津大学专场
  • 限时离境、关闭领空、暂停贸易,巴基斯坦宣布一系列对印反制措施
  • 体坛联播|AC米兰挺进意大利杯决赛,弗雷戴特宣布退役
  • 上海市闵行区原二级巡视员琚汉铮接受纪律审查和监察调查
  • 巴基斯坦航天员选拔工作正在进行,1人将以载荷专家身份参加联合飞行
  • 电影“名场面”被制成表情包在网站上传播,网站运营者被判赔5500元
  • 耐克领跑女性运动市场:持续加码、创新,更多新增长点有望涌现