当前位置: 首页 > news >正文

从规则到大模型:知识图谱信息抽取实体NER与关系RE任务近10年演进发展详解

摘要

本文回顾了关系抽取与实体抽取领域的经典与新兴模型,清晰地梳理了它们的出现时间与核心创新,并给出在 2025 年不同资源与场景下的最佳实践推荐。文章引用了 BiLSTM‑CRF、BiLSTM‑CNN‑CRF、SpanBERT、LUKE、KnowBERT、CasRel、REBEL、UIE,大模型抽取 等模型的原始论文与权威来源,帮助读者全面、系统地理解信息抽取技术的发展脉络与应用指南。


 

一、信息抽取技术的发展时间线

年份

代表模型

核心贡献

2016

BiLSTM‑CRF(Lample et al.)

将双向 LSTM 与 CRF 解码结合,实现端到端序列标注

2016

BiLSTM‑CNN‑CRF(Ma & Hovy)

引入字符级 CNN 捕捉形态特征,增强未登录词处理

2019

KnowBERT(Peters et al.)

将 WordNet/Wikipedia 知识注入 BERT,提升实体与关系抽取

2020

SpanBERT(Joshi et al.)

用 span‑masking 学习片段边界表示,提升 QA 与关系抽取 (ArXiv 版本)

2020

LUKE(Yamada et al.)

实体感知自注意力,词与实体同处编码,刷新多项 SOTA

2020

CasRel(Wei et al.)

级联二元标注解决三元组重叠(SEO/EPO)问题

2021

REBEL(Huguet Cabot & Navigli)

基于 BART 的 Seq2Seq 生成式关系抽取,支持 200+ 关系类型

2022

UIE(Lu et al.)

统一 Text‑to‑Structure 生成框架,涵盖实体/关系/事件等 (ArXiv 版本)0样本,少样本

2022提示词抽取0样本,少样本学习

 

二、2025 年的主流选型

1. 资源有限时:BiLSTM‑CRFBiLSTM‑CNN‑CRF

  • 依旧是无大规模预训练模型支持时的坚实基线;

  • 在 CoNLL‑2003 上可达 ~91% F1,轻量、易部署 。

1.1 BiLSTM‑CRF(pipeline:实体抽取模型)

  • 结构:双向 LSTM 编码器 + CRF 解码层,用以同时建模上下文依赖和标签间转移关系。

  • 性能:在 CoNLL‑2003 英文数据集上,无需外部特征即可达到约 91.2% 的 F1 值,堪比早期 BERT 结果。

  • 适用场景:标注数据量适中、希望用端到端模型而不做大量特征工程时;也适合缺少大规模预训练模型支持的语言或领域。

  • bilstm+attention(pipeline:关系抽取模型)

1.2 BiLSTM‑CNN‑CRF

  • 结构:在 BiLSTM 前加入字符级 CNN,用以捕捉形态学特征,增强对低频词或未登录词的处理能力。

  • 性能:同样能在 CoNLL‑2003 上达到约 91.2% F1,在形态丰富的语言(如医学、生物领域)中通常略优于纯 BiLSTM‑CRF。

  • 适用场景:字符或子词模式重要(如专业术语、黏着语);模型尺寸或延迟对实时性有严格要求、无法部署大型 Transformer 时。


预训练语言模型(PLM)在 NER 与 RE 中的应用

2. 资源充足时:SpanBERT / LUKE / KnowBERT

  • SpanBERT 擅长 span 表征,适合联合任务与 QA 管道 ;

  • LUKE 一体化 NER+RE 端到端解决方案,需实体链接支撑 ;

  • KnowBERT 面向知识密集型领域,KB 注入减少“编造”事实 。

2.1 SpanBERT

  • 预训练目标:遮蔽连续 span,并让模型学习该 span 边界的表示,而非单个词。

  • NER & RE 表现:在 span 选择任务(问答、共指解析)和关系抽取(如 TACRED 加入图网络改进版 DG‑SpanBERT)上均优于 BERT。

  • 适用场景:需精确 span 表征的场景——联合实体关系抽取、问答管道等。

2.2 LUKE

  • 实体感知自注意力:将词与实体都作为输入 token,额外引入实体嵌入,并在自注意力中区分词-词、词-实体、实体-实体的注意力权重。

  • 基准成绩:在 CoNLL‑2003、TACRED(关系分类)和 Open Entity Typing 等任务上均刷新 SOTA,表现稳健。

  • 适用场景:既要做高质量 NER 又要做 RE,一体化端到端系统;当已有高质量实体链接(如维基百科实体)做支撑时效果最佳。

2.3 KnowBERT

  • 知识注入:通过实体链接在预训练阶段将知识库(WordNet、维基百科)事实融合进 BERT 权重。

  • 下游收益:在实体分类、关系抽取、困惑度评估等任务上提升明显,且推理时开销与纯 BERT 相近。

  • 适用场景:知识密集型领域(医学、金融),需要依赖外部 KB 校正模型输出、避免“编造”事实。


3. 重叠抽取场景:CasRel

  • 天然处理单实体/实体对重叠(SEO/EPO),新闻与法律文本场景优选 。

3.1. 联合抽取:CasRel

  • 级联二元标注:先用线性+Sigmoid 在 BERT 输出上识别所有可能的“主语” span;再对每个主语,在每个关系类别下独立预测“宾语” span。

  • 重叠关系支持:自然涵盖单实体重叠(SEO)与实体对重叠(EPO)场景,不需额外后处理。

  • 性能表现:在 WebNLG 数据集上约 91.8% F1,NYT10 上约 89.6% F1,与或优于传统流水线方法。

  • 适用场景:关系种类多且三元组重叠严重(如新闻语料);希望用统一模型替代分步 NER+RE 管道时。

4. 端到端生成式:REBEL

  • 将三元组线性化为文本序列,少样本与跨领域表现杰出 。

5. 通用一体化:UIE

  • 统一实体/关系/事件/情感抽取,支持零/少样本与跨任务迁移 。

6. 大模型时代:提示词工程(chatgpt,deepseek等)

任务:从下面句子中抽取 PERSON、ORG 实体及其“创办者”关系。
定义:PERSON 表示人物;ORG 表示机构;“创办者”关系示例:{ "subject": "马云", "relation": "创办者", "object": "阿里巴巴" }.

示例1:
句子:马云于1999年创办了阿里巴巴。
标注:{"subject":"马云","relation":"创办者","object":"阿里巴巴"}

示例2:
句子:比尔·盖茨是微软的联合创始人。
标注:{"subject":"比尔·盖茨","relation":"创办者","object":"微软"}

请在下方句子中做同样抽取:
句子:……
格式要求:JSON 数组,字段顺序固定为 subject→relation→object。


总结

在资源有限时,BiLSTM‑系列模型仍是坚实基线;当拥有充足计算和数据时,SpanBERT、LUKE、KnowBERT 等预训练模型显著超越传统方法;而 CasRel 则在复杂重叠的联合抽取场景中表现尤为出色,当然如果不做标注的话大模型提示词也是可以的。

如果这篇文章对你有帮助,欢迎 点赞收藏转发,并在评论区留下你的 疑问实践经验,一起交流、共同进步!

声明:文中引用均来自权威论文与官方开源项目,点击查看原文链接。希望对你的项目选型与技术学习有所裨益!

 

相关文章:

  • 项目班——0419——functionbind生产消费(未完成)
  • 如何测试雷达与相机是否时间同步?
  • list的学习
  • Missashe考研日记-day23
  • 【数字图像处理】彩色图像处理(1)
  • Easysearch Rollup 相比 OpenSearch Rollup 的优势分析
  • 深入解析 Linux 文件系统中的软硬链接:从原理到实践
  • RS232 串行通信:C++ 实现指南
  • SAP系统生产跟踪报表入库数异常
  • C语言中的双链表和单链表详细解释与实现
  • 极狐GitLab Git LFS 速率限制如何设置?
  • [Python] 入门核心笔记
  • 使用C#和FFmpeg开发RTSP视频播放器的完整指南
  • Azkaban集群搭建
  • 递归的模板 (以反转链表为例)
  • AI时代,是该切换到Cursor编辑器了
  • 探究CF1009(div3)C题——XOR and Triangle
  • 【第16届蓝桥杯C++C组】--- 2025
  • Docker Compose 使用实例
  • 接口测试流程和步骤
  • 马上评|京东VS美团,消费者希望看到的不是“口水仗”
  • 金价新高不断,上金所再发风险提示,黄金能否持续闪耀?
  • 重大虚开发票偷税骗补案被查处:价税2.26亿,涉700余名主播
  • 澳门世界杯“中日对决”,蒯曼击败伊藤美诚晋级女单决赛
  • 价格周报|本周生猪均价环比上涨,交易均重继续上升
  • 不降息就走人?特朗普试图开先例罢免美联储主席,有无胜算