当前位置: 首页 > news >正文

网络爬虫-2:基础与理论

一.同步加载与异步加载

1.1同步加载定义:

页面所有内容一起加载出来,当某一个数据加载有问题,整个页面就不会加载出来(如HiFiNi音乐网站),所以又叫阻塞模式

1.2爬取步骤:

看netword->document

2.1异步加载定义:

数据是分开加载的,当某一份数据有异常时,不影响其他数据的加载呈现,所以又叫非阻塞模式

2.2爬取步骤:

看network->XHR/fetch

3.区分:

看左上角的刷新按钮:
1.动了:同步
2.没动:异步

二.网页数据返回方式

1.直接返回网页文本--HTML
2.Ajax加载 --json
3.JavaScript渲染--json

三.爬虫步骤

1.检查网页是同步加载还是异步加载

我们要实战的网页url:HiFiNi - 音乐磁场,经检测在翻页时,左上角的刷新按钮动了,所以是同步加载,所以我们要从network中的document获取我们要爬取的内容

2.实战

1.右击网页,点击检查

2.点开network中的doc,并点击左上角的刷新按钮,点开index-1.htm文档

3.在headers中看到Request url,Request Method 在看Response

相关文章:

  • 论文阅读笔记:Denoising Diffusion Probabilistic Models (3)
  • C语言中*a与a的区别和联系
  • 数据结构——B树、B+树、哈夫曼树
  • 安全测试理论
  • JavaScript 性能优化实战
  • 【云馨AI-大模型】自动化部署Dify 1.1.2,无需科学上网,Linux环境轻松实现,附Docker离线安装等
  • 【C++教程】setw()函数的使用方法
  • 深入理解Linux中的SCP命令:使用与原理
  • Hutool中的相关类型转换
  • 山东大学数据结构课程设计
  • linux--时区查看和修改
  • 动态规划-01背包
  • 牛客网【模板】二维差分(详解)c++
  • 分区表的应用场景与优化实践
  • 001-JMeter的安装与配置
  • 【操作系统笔记】操作系统的功能
  • 【Linux】线程库
  • 常见中间件漏洞攻略-Jboss篇
  • 多线程编程中什么时候使用锁和原子操作
  • Leetcode 3495. Minimum Operations to Make Array Elements Zero
  • “光荣之城”2025上海红色文化季启动,红色主题市集亮相
  • 人社部:一季度全国城镇新增就业308万人,同比增加5万人
  • 商务部新闻发言人就波音公司飞回拟交付飞机答记者问
  • 对话|贝聿铭设计的不只是建筑,更是生活空间
  • 商务部:将打造一批国际消费集聚区和入境消费友好商圈
  • 交警不在就闯红灯?上海公安用科技手段查处非机动车违法