当前位置: 首页 > news >正文

爬虫学习笔记(二)--web请求过程

Web请求全过程(重要)

从输入完网址(如输入百度网址)到返回页面以及页面中的数据这一完整的过程发生了什么事情?

服务器端渲染

在服务器端直接把数据和html整合,统一返回给浏览器,在页面源代码中能看到数据

例子:百度搜索某一明星信息

客户端渲染

数据和Html在客户端整合,第一次请求只要一个html骨架,第二次请求拿到数据,在客户端整合html和数据后进行统一页面展示,而在页面源代码中(仅有html页面)看不到数据

例子:请求豆瓣排行榜网页

浏览器抓包工具

 

打开抓包工具的方法:

右键->检查

重新回车上面的url地址,下面network就会显示这次完整的url请求的各种数据图片,找到左下角typerank这一个url请求,点击右面的header查看,发现这个请求的url地址与这个网页首页面的url地址相同,这个就是第一次的请求

第一次请求响应的页面(骨架)

点击preview提前预览这个页面,查看第一次请求返回的内容 ,发现这里面内容很简陋,像电影排行的具体电影信息等并未出现,说明第一次url请求只是返回一个框架,并没有真正想要查看的具

体的数据

下面是提前预览的与实际页面的对比,左边实际的页面有具体的电影信息如下图美丽人生(相关的放映年份、主演人员、豆瓣评分),右边的首次访问页面返回的数据中没有这些信息,右边没有任何的统计数据信息,只有分类等级的一些框架显示

真正的数据在哪里? (第二次请求-数据)

点击name为"top-list?type=248*"的字样,找到header信息,查看请求的url,发现该url与顶部请求信息的url相比多了&start=0&limit=20字样的信息,返回数据内容的类型content-type为json格式的数据

点击preview,如下图返回的是20个json序列

点击第0个序列查看具体数据,如下图所示,第0个序列的数据就是排名第一的电影的数据信息,主演、电影名、电影类型都可以一一对应上

爬虫需要爬取的

所以如果想爬虫爬到数据,就没必要把第一次请求的骨架爬取,只需要爬取第二次请求返回的json数据(正好是规整的数据)如下图所示

相关文章:

  • 如何获取按关键字搜索京东商品详情(代码示例)
  • Modbus总线协议智能网关协议转换案例解析:提升系统兼容性
  • 导入使用 Blender 创建的 glTF/glb 格式的 3D 模型
  • 激光测距仪,精准测量的利器
  • C++ 可调用实体 (详解 一站式)
  • 在Linux系统中安装MySQL,二进制包版
  • STL标准模板库
  • 设备指纹护航电商和金融反欺诈体系建设
  • delphi使用sqlite3
  • 入门版 鸿蒙 组件导航 (Navigation)
  • Java 中的 Continuation:深入理解虚拟线程的基石
  • Uni-app网络请求AES加密解密实现
  • Uniapp:showLoading(等待加载)
  • Docker安装的mysql限制ip访问
  • 1. 用户之窗
  • iVX 图形化编程如何改写后端开发新范式
  • 后端Web实战之登录认证,JWT令牌,过滤器Filter,拦截器Interceptor一篇文章so easy!!!
  • vuex源码分析(一)——初始化vuex
  • truffle
  • SpringMVC 使用thymeleaf 进行数据展示
  • 2025上海体育消费节启动,多形式联动打造体育消费盛宴
  • 【社论】优化限购限行,激发汽车消费潜能
  • 五万吨级半潜船在沪完成装备装载
  • 全过程人民民主研究基地揭牌,为推动我国民主政治建设贡献上海智慧
  • 天津外国语大学原校长修刚突发疾病去世,享年68岁
  • 重新认识中国女性|婚姻,古代传统家庭再生产的根本之道