爬虫学习笔记(三)--Http协议
思维导图
上面思维导图提取的原文是2026王道计网P286~290
URL最前面(URL传输过程中遵循HTTP协议)
协议
计算机传输的数据实际上就是二进制0和1,协议就是规定这一串二进制数字的前几位代表什么、中间几位代表什么、后几位代表什么
HTTP(超文本传输协议)-无连接、可靠
传递网站相关内容的基本都用HTTP,因为对于超文本HT进行了规定,网页源代码采用的就是超文本标记语言HTML
HTTP报文结构
请求头常见
User-Agent:请求载体的身份标识(用什么浏览器、什么操作系统、设备访问的)
Referer:防盗链--这次请求是从哪个页面来的(反爬会用到)
cookie:本地字符串数据信息(用户登录信息,反爬的token)
响应头常见
cookie:同请求头
token字样的字符串:防止各种攻击和反爬
请求方式
get:查询--显式提交
post:更改--隐式提交