当前位置：首页 > news >正文

LIB-ZC, 一个跨平台(Linux)平台通用C/C++扩展库, 多关键字搜索模块

news 来源：原创 2025/4/20 14:43:43

LIB-ZC, 一个跨平台(Linux)平台通用C/C++扩展库, 多关键字搜索模块

在处理大规模数据时，多关键字匹配是一项关键技术。
LIB-ZC 库内嵌的多关键字搜索模块，凭借独特的设计与高效的实现，能够轻松应对十万百万量级的关键字匹配，以及大量 URL 匹配等场景。

模块核心实现与文件格式

实现原理和细节 https://gitee.com/linuxmail/lib-zc/tree/master/cpp_src/cdb
采用了 mmap 机制，实现多进程共享数据。
模块生成的数据以特定格式存储，方便后续搜索器加载和使用。

核心类解析

zcc::msearch_builder：用于构建关键字索引数据，通过添加关键字、从文件读取关键字等操作，最终生成可用于搜索的编译后数据。
zcc::msearch_reader：线程安全的搜索器，能够从文件或数据 Buffer 加载编译后的数据，并执行关键字匹配操作。
zcc::msearch_walker：用于遍历已加载的关键字数据，方便用户获取所有存储的关键字信息。

生成关键字索引

zcc::msearch_builder builder;
// 添加单个关键字
builder.add_token("12345", 5);
// 从文件中添加关键字
builder.add_token_from_file("/etc/postfix/main.cf");
// 再次添加关键字
builder.add_token("abc", 3);
// 标记关键字添加结束
builder.add_over();
// 将生成的编译后数据写入文件
zcc::file_put_contents("./a.cdb", builder.get_compiled_data(), builder.get_compiled_size());

上述代码通过zcc::msearch_builder逐步构建关键字索引。
可以添加单个关键字，也能从文件中批量读取关键字。
完成添加后，将编译后的数据写入文件，供后续搜索使用。

执行关键字搜索

zcc::msearch_reader reader;
if (zcc::msearch_reader::is_my_file("a.cdb"))
{// 从文件加载数据if (reader.load_from_file("./a.cdb") < 1){zcc_error_and_exit("can not open a.cdb");}
}// 准备测试数据
std::string con = zcc::file_get_contents_sample("some.txt");
int offset;
const char *result;
// 执行匹配操作
int len = reader.match(con.c_str(), con.size(), &result, &offset);
if (len < 1)
{zcc_info("NOT FOUND");
}
else
{std::string s(result, offset);zcc_info("FOUND: %s", s.c_str());
}

zcc::msearch_reader 先判断文件是否为可加载的搜索数据文件，然后从文件加载数据。
准备好测试数据后，调用match方法进行关键字匹配，根据匹配结果输出相应信息。
整个过程线程安全，适用于多线程环境下的搜索需求。

遍历关键字数据

zcc::msearch_reader reader;
if (reader.load_from_file("./a.cdb") < 1)
{zcc_error_and_exit("can not open a.cdb");
}
zcc::msearch_walker walker(reader);
const char *token;
int tlen;
while (walker.walk(&token, &tlen) > 0)
{std::string s(token, tlen);zcc_info("key: %s", s.c_str());
}