当前位置：首页 > news >正文

HTTP：九.WEB机器人

news 来源：原创 2025/4/19 7:15:46

概念

Web机器人是能够在无需人类干预的情况下自动进行一系列Web事务处理的软件程序。人们根据这些机器人探查web站点的方式，形象的给它们取了一个饱含特色的名字，比如“爬虫”、“蜘蛛”、“蠕虫”以及“机器人”等！

爬虫概述

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。

网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引，或完全不作处理。

网络爬虫始于一张被称作种子的统一资源地址（URL）列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张“待访列表”，即所谓爬行疆域。此疆域上的URL将会被按照一套策略循环来访问。如果爬虫在执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以较容易的被查看。阅读和浏览他们存储的网站上并即时更新的信息，这些被存储的网页又被称为“快照”。越大容量的网页意味着网络爬虫只能在给予的时间内下载越少部分的网页，所以要优先考虑其下载。高变化率意味着网页可能已经被更新或者被取代。一些服务器端软件生成的URL（统一资源定位符）也使得网络爬虫很难避免检索到重复内容。

爬虫流程

**爬虫流程：**

发送 HTTP 请求到目标网站：爬虫模拟浏览器发送请求获取网页数据。
获取服务器返回的 HTML 页面：服务器响应请求并返回网页内容。
解析 HTML 内容，提取所需数据：爬虫使用解析库提取网页中的有用信息。要避免环路的出现，因为这些环路会暂停或减缓机器人的爬行过程
保存数据以供后续使用：提取的数据被保存到文件或数据库中。

环路对爬虫有害的三个原因：

爬虫会陷入循环之中，从而兜圈子，浪费带宽，无法获取新页面！

爬虫无限的请求服务器，从而阻塞了真正的用户去

相关文章：

「数据可视化 D3系列」入门第九章：交互式操作详解

Linux学习——守护进程编程

Android平台 Hal AIDL 系列文章目录

人工智能应用工程师（工信部教考中心）

信息系统项目管理师_第十一章项目采购管理

C++代码优化

若依同步企业微信架构及ACTIVITI

【VSCode】在 VSCode 中运行 HTML 页面并通过 HTTPS 访问

linux查看及修改用户过期时间

【Java面试系列】Spring Boot微服务架构下的分布式事务设计与实现详解 - 3-5年Java开发必备知识

【多线程-第四天-SDWebImage的常见面试题-进一步解读SDWebImage的源代码 Objective-C语言】

使用Docker搭建开源Email服务器

stl 容器 – map

DDoS防御发展史

7.Rust+Axum：打造高效 RESTful API 的最佳实践

Python中type()函数的深度探索：类型检查与动态类创建

吴恩达强化学习复盘(1)聚类算法|K-Means算法

解决jupyter notebook修改路径下没有c.NotebookApp.notebook_dir【建议收藏】

js实现的前端水印

人工智能代理重塑数字成功：为何面向机器的营销是下一前沿

林诗栋4比1战胜梁靖崑，晋级世界杯男单决赛将和雨果争冠

外交部：中方在乌克兰问题上一直积极致力于劝和促谈

世卫成员国就《大流行病协议》达成一致，首次演练应对气候诱发的病毒危机

全国首票海关特殊监管区域外保税再制造业务落地上海

广东将调查核算6宗非法开采稀土矿，公告比选技术服务供应商

恒大汽车接获港交所复牌指引，还未披露公司2024年年报