当前位置: 首页 > news >正文

NLP高频面试题(五十三)——LLM中激活函数详解

引言

在现代大型语言模型架构中,激活函数是贯穿神经网络各层的关键组件。它们通过为线性变换结果引入非线性,从而赋予模型表达复杂语言模式的能力。选择合适的激活函数,不仅影响训练的稳定性与收敛速度,还在推理阶段决定了计算效率与模型性能。本文将系统梳理常见激活函数的原理与特点,并探讨新兴方案在实际 LLM 中的应用。

激活函数概述

激活函数(Activation Function)是一种非线性映射,将神经元的加权输入及偏置进行转换后再传递给下一层。没有激活函数,无论网络有多少层,都将退化为线性模型,无法拟合复杂的自然语言规律。激活函数需满足可导性(以便反向传播)与计算效率(以利大规模模型训练与推理)等基本要求。

经典激活函数

Sigmoid 与 Tanh

  • Sigmoid
    将输入压缩到 (0, 1) 区间,适合二元分类输出;但梯度在极端值区域接近零,容易导致梯度消失。
  • Tanh
    将输入映射到 (–1, 1),相较于 Sigmoid 中心对称,对特征归一化有帮助;但同样存在梯度消失问题。

<

相关文章:

  • 力扣hot100_链表(3)_python版本
  • 盈达科技:登顶GEO优化全球制高点,以AICC定义AI时代内容智能优化新标杆
  • TCP四大特性面试回答引导
  • 【无人机】无人机位置估计出现偏差的原因分析
  • ESP32-S3开发板麦克风录音到SD卡存储测试
  • 自主可控鸿道Intewell工业实时操作系统
  • Rust 语言使用场景分析
  • 【LangChain4j】AI 第一弹:LangChain4j 的理解
  • 图聚类中的亲和力传播
  • 数据库11(触发器)
  • 跨平台软件开发探讨
  • 三目云台转动性能稳定性
  • 动态显微镜数据分析及AI拓展
  • 第50讲:AI+农业金融与风险预测场景实战
  • Centos9安装docker
  • spark和hadoop之间的对比关系和联系
  • 《MySQL:MySQL表的内外连接》
  • 线程入门3
  • es 自动补全
  • Available platform plugins are: xcb.报错解决办法
  • “雷公”起诉人贩子王浩文案开庭:庭审前手写道歉信,庭审中不承认拐走川川
  • 呈现“民族脊梁型爱国学府”曲折辉煌的办学历程,这个展览开幕
  • 正荣地产旗下“H20正荣2”债未能于宽限期内支付分期偿付款,尚未就新兑付方案达成一致
  • 杭州萧山区两宗地块收金约44.73亿元,最高溢价率74.4%
  • 人民网评“我愿意跟他挨着”热搜第一:充满温暖力量的七个字
  • 耐克领跑女性运动市场:持续加码、创新,更多新增长点有望涌现