当前位置: 首页 > news >正文

01.浏览器自动化webdriver源码分析之启动函数

日后,网络爬虫也好,数据采集也好,自动化必然是主流。因此,笔者未雨绸缪,在此研究各类自动化源码,希望能够赶上时代,做出一套实用的自动化框架。

这里先研究传统的webdriver中转来进行浏览器自动化的源码。

webdriver官方位于这里:WebDriver

用过selenium的同学应该都知道,需要有selenium这个自动化库来写脚本,需要一个webdriver.exe,还需要一个浏览器。流程基本如下:

编写脚本----->发送消息给webdriver------>webdriver发消息给浏览器

通过这样一个流程,就完成了自动化。

脚本简单,资料一大堆,浏览器也只是个执行者,所以关键在于webdriver如何接受、处理、发送消息,所以重点源码webdriver源码。

WebDriverMain.cpp:启动函数


#include "config.h"#include "LogInitialization.h"
#include "WebDriverService.h"
#include <wtf/MainThread.h>
#include <wtf/Threading.h>#if OS(ANDROID)
__attribute__((visibility("default")))
int WebKit::WebDriverProcessMain(int argc, char** argv)
#else
int main(int argc, char** argv)
#endif
{WebDriver::WebDriverService::platformInit();WTF::initializeMainThread();
#if !LOG_DISABLED || !RELEASE_LOG_DISABLEDWebDriver::logChannels().initializeLogChannelsIfNecessary(WebDriver::logLevelString());
#endifWebDriver::WebDriverService service;return service.run(argc, argv);
}

步骤 1:平台初始化:platformInit源码里空白无实现,应该是等之后更新。

步骤 2:WTF(Web Template Framework)主线程初始化

步骤 3:日志通道初始化

步骤 4:创建并运行 WebDriver 服务

WebDriverService.cpp:解析命令参数,进入监听loop循环。。

if (const char* targetEnvVar = getenv("WEBDRIVER_TARGET_ADDR"))targetString = String::fromLatin1(targetEnvVar);

先获取一个名为WEBDRIVER_TARGET_ADDR的环境变量,这个变量是用于链接已经开启的浏览器,是的,需要先把浏览器打开,然后webdriver回去链接,而不是先运行webdriver。

然后解析命令行参数,一大堆,没什么可看的:

        if (equalSpans(arg, "-h"_span) || equalSpans(arg, "--help"_span)) {printUsageStatement(argv[0]);return EXIT_SUCCESS;}if (equalSpans(arg, "-p"_span) && portString.isNull()) {if (++i == argc) {printUsageStatement(argv[0]);return EXIT_FAILURE;}portString = String::fromLatin1(argv[i]);continue;}static constexpr auto portArgument = "--port="_span;if (spanHasPrefix(arg, portArgument) && portString.isNull()) {portString = arg.subspan(portArgument.size());continue;}static constexpr auto hostArgument = "--host="_span;if (spanHasPrefix(arg, hostArgument) && !host) {host = arg.subspan(hostArgument.size());continue;}#if ENABLE(WEBDRIVER_BIDI)static constexpr auto bidiPortArgument = "--bidi-port="_span;if (spanHasPrefix(arg, bidiPortArgument) && bidiPortString.isNull()) {bidiPortString = arg.subspan(bidiPortArgument.size());continue;}
#endifif (equalSpans(arg, "-t"_span) && targetString.isNull()) {if (++i == argc) {printUsageStatement(argv[0]);return EXIT_FAILURE;}targetString = String::fromLatin1(argv[i]);continue;}static constexpr auto targetArgument = "--target="_span;if (spanHasPrefix(arg, targetArgument) && targetString.isNull()) {targetString = arg.subspan(targetArgument.size());continue;}if (equalSpans(arg, "--replace-on-new-session"_span)) {m_replaceOnNewSession = true;continue;}}if (portString.isNull()) {printUsageStatement(argv[0]);return EXIT_FAILURE;}if (!targetString.isEmpty()) {auto position = targetString.reverseFind(':');if (position != notFound) {m_targetAddress = targetString.left(position);m_targetPort = parseIntegerAllowingTrailingJunk<uint16_t>(StringView { targetString }.substring(position + 1)).value_or(0);}}auto port = parseInteger<uint16_t>(portString);if (!port) {fprintf(stderr, "Invalid port %s provided\n", portString.utf8().data());return EXIT_FAILURE;}#if ENABLE(WEBDRIVER_BIDI)auto bidiPort = parseInteger<uint16_t>(bidiPortString);if (!bidiPort) {const int16_t bidiPortIncrement = *port == std::numeric_limits<uint16_t>::max() ? -1 : 1;bidiPort = { *port + bidiPortIncrement };fprintf(stderr, "Invalid WebSocket BiDi port %s provided. Defaulting to %d.\n", bidiPortString.utf8().data(), *bidiPort);}
#endif

最后是进入主循环,这里先线程初始化,然后看是websockst还是http模式,前者双向,后者单向。之后如果监听listen成功,就进入loop的循环不断接受消息:

    WTF::initializeMainThread();const char* hostStr = host && host->utf8().data() ? host->utf8().data() : "local";
#if ENABLE(WEBDRIVER_BIDI)if (!m_bidiServer.listen(host ? *host : nullString(), *bidiPort)) {fprintf(stderr, "FATAL: Unable to listen for WebSocket BiDi server at host %s and port %d.\n", hostStr, *bidiPort);return EXIT_FAILURE;}RELEASE_LOG(WebDriverBiDi, "Started WebSocket BiDi server with host %s and port %d", hostStr, *bidiPort);
#endif // ENABLE(WEBDRIVER_BIDI)if (!m_server.listen(host, *port)) {fprintf(stderr, "FATAL: Unable to listen for HTTP server at host %s and port %d.\n", hostStr, *port);return EXIT_FAILURE;}RELEASE_LOG(WebDriverClassic, "Started HTTP server with host %s and port %d", hostStr, *port);RunLoop::run();#if ENABLE(WEBDRIVER_BIDI)m_bidiServer.disconnect();
#endifm_server.disconnect();return EXIT_SUCCESS;

其中的监听代码如下:

bool HTTPServer::listen(const std::optional<String>& host, unsigned port)
{auto& endpoint = RemoteInspectorSocketEndpoint::singleton();if (auto id = endpoint.listenInet(host ? host.value().utf8().data() : "", port, *this)) {m_server = id;return true;}return false;
}

这里先用了个设计模式:单例模式,为了可复用利用同一个监听端点。

然后是很常规的server模式,打开一个TCP端口监听。

std::optional<ConnectionID> RemoteInspectorSocketEndpoint::listenInet(const char* address, uint16_t port, Listener& listener)
{Locker locker { m_connectionsLock };auto id = generateConnectionID();auto connection = makeUnique<ListenerConnection>(id, listener, address, port);if (!connection->isListening())return std::nullopt;m_listeners.add(id, WTFMove(connection));wakeupWorkerThread();return id;
}bool RemoteInspectorSocketEndpoint::isListening(ConnectionID id)
{Locker locker { m_connectionsLock };if (m_listeners.contains(id))return true;return false;
}

主循环代码如下,典型的一个GUI的事件消息处理机制,熟悉win32的同学应该很懂,而且这里就是纯粹的win32的函数接口,获取消息,把消息转化为字符消息,分发消息:

void RunLoop::run()
{MSG message;while (BOOL result = ::GetMessage(&message, nullptr, 0, 0)) {if (result == -1)break;::TranslateMessage(&message);::DispatchMessage(&message);}
}

相关文章:

  • Uniapp:navigator(页面跳转)
  • qt调用deepseek的API开发(附带源码)
  • Android Studio开发 SharedPreferences 详解
  • 【MATLAB第115期】基于MATLAB的多元时间序列的ARIMAX的预测模型
  • js原型链prototype解释
  • Nature Communications 面向形状可编程磁性软材料的数据驱动设计方法—基于随机设计探索与神经网络的协同优化框架
  • Qt绘制可选择范围的日历
  • 未来教育风向标 | 教育学顶流985高校,华东师范大学《AIGC技术赋能教育数字化转型的机遇与挑战》,13所大学deepseek
  • 深度解析MQTT源码架构与AIGC场景融合实战
  • 三生原理与现有密码学的核心区别?
  • 洗车小程序系统前端uniapp 后台thinkphp
  • AI大模型:(二)2.3 预训练自己的模型
  • chili3d调试笔记8 打印零件属性
  • VSCode 用于JAVA开发的环境配置,JDK为1.8版本时的配置
  • C++继承(最详细)
  • PDF转换Word深度评测 - ComPDFKit Conversion SDK V3.0
  • Oracle--SQL性能优化与提升策略
  • PowerQuery逆透视将二维表转换为一维表
  • 全面介绍AVFilter 的添加和使用
  • Neo4j 可观测性最佳实践
  • 王励勤当选中国乒乓球协会新一任主席
  • 对话地铁读书人|企业公关吴丑丑:阅读中相遇又重逢
  • 外交部:制裁在涉港问题上表现恶劣的美方人士是对等反制
  • 三江购物:因自身商业需要,第二大股东阿里泽泰拟减持不超3%公司股份
  • 中共中央、国务院印发《关于实施自由贸易试验区提升战略的意见》
  • 央视网评论员:婚约不是性许可——山西订婚强奸案背后的性教育盲区