当前位置：首页 > news >正文

Airbnb更智能的搜索：嵌入式检索（Embedding-Based Retrieval，EBR）工作原理解析

news 来源：原创 2025/4/29 7:45:25

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

Airbnb通过引入嵌入式检索技术，显著提升了搜索系统的效率与相关性。

面临的挑战：规模下的相关性问题
Airbnb的搜索使命看似简单——帮助客人找到合适的住宿，但实际上异常复杂。平台上有数百万条房源信息，用户的查询需求差异巨大，例如有的用户搜索“纽约”，而有些用户则会输入“卡茨基尔山带壁炉的舒适小木屋”。此外，由于灵活搜索选项，部分用户甚至不会固定旅行日期。这些因素使得传统依赖关键词匹配或筛选器的搜索系统难以快速提供优质结果。

Airbnb提出了一个关键洞见：如果可以利用深度学习，将房源信息和用户查询都表示成同一空间中的向量，再在向量空间中查找彼此接近的项目呢？这便是嵌入式检索（EBR）的基本理念。

什么是嵌入式检索（EBR）？
嵌入（embedding）指的是将对象（如房源或搜索查询）转换为多维空间中的数字表示（可以想象成拥有上百条轴线的地图）。在这个空间中，相似的事物会彼此靠近。

检索（retrieval）是从海量数据库中提取相关候选项的过程。通过EBR，Airbnb能够基于查询在嵌入空间中快速检索与之“接近”的房源，大大加速了从数百万条房源中筛选小规模候选集的过程，从而在执行昂贵的最终排序之前，完成高效的初步筛选。

例如，“迈阿密海滨公寓”和“南滩海边公寓”在关键词匹配上可能差异较大，但在嵌入空间中却因概念相近而非常接近；而“迈阿密海滨公寓”和“阿斯本滑雪小屋”尽管都是度假房源，却在嵌入空间中相距遥远。

🛠 第一步：构建训练数据
为了有效训练EBR模型，Airbnb采用了复杂而系统的方法生成高质量的训练样本：

基于行程的查询分组：
将一次完整预订旅程中的历史查询定义为一个“行程”，并根据地理位置、入住人数和停留时长等关键参数进行分组，从而捕捉用户预订前的多阶段搜索过程。
正负样本选择策略：
用户最终预订的房源被作为正样本；负样本则精选用户在搜索过程中曾经浏览但未最终预订的房源，包括出现在搜索结果中但未被点击、被详细查看过、或被加入心愿单但最终未预订的房源。
采样策略背后的逻辑：
故意避免随机负样本采样，以防训练任务过于简单。通过选择用户真正考虑过但未选择的房源，模型能够学习到更细腻的偏好信号。这种方法反映了用户在做出预订决策前，通常会经历多轮探索比较。
对比学习（Contrastive Learning）实现：
模型被训练将查询、正样本房源与负样本房源映射到同一嵌入空间。训练目标是将查询向量拉近到正样本房源，同时拉远与负样本房源的距离。通过这种对比学习，模型能够捕捉到超越简单关键词匹配的细微用户偏好。

👉 关键概念：在机器学习中，对比学习通过比较好与坏的样本，帮助模型更深刻理解相似性。

🧱 第二步：模型设计——双塔架构（Two-Tower Architecture）
Airbnb采用了常见于检索系统的双塔模型架构：