当前位置: 首页 > news >正文

chatgpt的原理 第四部分

五、ChatGPT

终于说到了主角,能看到这里的,可以关注一下 JioNLP 公众号吗?我写的也够累的。

 

ChatGPT 模型上基本上和之前 GPT-3 都没有太大变化,主要变化的是训练策略变了,用上了强化学习。

 

强化学习

几年前,alpha GO 击败了柯洁,几乎可以说明,强化学习如果在适合的条件下,完全可以打败人类,逼近完美的极限。

 

强化学习非常像生物进化,模型在给定的环境中,不断地根据环境的惩罚和奖励(reward),拟合到一个最适应环境的状态。

 

NLP + 强化学习

强化学习之所以能比较容易地应用在围棋以及其它各种棋牌游戏里,原因就是对于 alpha Go 而言,环境就是围棋,围棋棋盘就是它的整个世界。模型就是不断根据棋盘的状态以及输赢状况调整策略,战胜了柯洁。

 

NLP 所依赖的环境,是整个现实世界,整个宇宙万物,都可以被语言描述,也就都需要针对模型输出的质量进行 reward 评价,它完全无法设计反馈惩罚和奖励函数。除非人们一点点地人工反馈。

哎,OpenAI 的 ChatGPT 就把这事给干了。

不是需要人工标反馈和奖励吗?那就撒钱,找40个外包,标起来!


这种带人工操作的 reward,被称之为 RLHF(Reinforcement Learning from Human Feedback)。


这里重点是第二步中,如何构建一个 reward 函数,在alpha go 里,这个reward 函数就是下完一盘围棋之后判断谁输谁赢,只需要一个程序函数即可完成。

而在ChatGPT里,具体就是让那40名外包人员不断地从模型的输出结果中筛选,判断哪些句子是好的,哪些是低质量的,这样就可以训练得到一个 reward 模型。

通过 reward 模型来评价模型的输出结果好坏。

讲真,这个 reward 模型,《黑客帝国》的母体 matrix 既视感有木有??!!


只要把预训练模型接一根管子在 reward 模型上,预训练模型就会开始像感知真实世界那样,感知reward。

reward母体模型
这个名字是我自己起的,因为这里的reward模型实在是完美契合了《黑客帝国》中所构建的世界。本文的封面也是《黑客帝国》。

与其说 ChatGPT 在拟合现实世界,不如说它是在对 reward 母体负责。而reward 母体也是由人工一点点标注完成的。母体并不直接拟合真实世界,它只对模型是否契合真实世界做真假判断。母体对真实世界的拟合,决定了我们看到的 ChatGPT 有多优质。

我们不再需要直接拟合所谓机器翻译的文本对,也不再去需要拟合判断新闻分类的数据对,而只需要去拟合那个reward母体。

由此,我们就可以得到这个把全世界都震碎的高音!

4610d1b91cd2421a87506ed9a7ae8300.png

今日学习寄语:

1、要么做第一个,要么做最好的一个。
2、信念和目标,必须永远洋溢在程序员内心。3、最累的时候,家人是你最好的归宿。
4、C程序员永远不会灭亡。他们只是cast成了void。
5、真正的程序员认为自己比用户更明白用户需要什么。
6、退一步海阔天空,这是一种应有的心境。
7、过去的代码都是未经测试的代码。
8、优秀的判断力来自经验,但经验来自于错误的判断。
9、测试是来表明bug的存在而不是不存在。
10、我们这个世界的一个问题是,蠢人信誓旦旦,智人满腹狐疑。
11、一个好汉三个帮,程序员同样如此。
12、看再多的书是学不全脚本的,要多实践。13、无私奉献不是天方夜谭,有时候,我们也可以做到。
14、世界上只有两句真理:1、人一定会死。2、程序一定有Bug。
15、UNIX很简单。但需要有一定天赋的人才能理解这种简单。
16、程序中蕴含着很多的道理,唯有大彻大悟者方能体会其中的奥妙。
17、编程中我们会遇到多少挫折?表放弃,沙漠尽头必是绿洲。
18、做技术一定要一颗恒心,这样才不会半途而废。
19、不要被对象、属性、方法等词汇所迷惑;最根本的是先了解最基础知识。
20、请把书上的例子亲手到电脑上实践,即使配套光盘中有源文件。

 

 

相关文章:

  • Gehpi的网络布局
  • go进阶(2) -深入理解Channel实现原理
  • 【数据库】 SQLServer
  • 【基础算法】二分例题(我在哪?)
  • ChatGPT 的盈利潜力:我使用语言模型赚取第一笔钱的个人旅程
  • 推荐算法——NCF知识总结代码实现
  • 刷题专练之数组移除元素
  • Vue 3第二章:Vite文件目录结构及SFC语法
  • 从0开始写Vue项目-Vue实现用户数据批量上传和数据导出
  • Linux 常用命令
  • 基于pytorch实现模型剪枝
  • 智慧物联网系统源码:一个用于数据的收集、处理、可视化、设备管理、设备预警、报警的平台
  • QT基础入门【调试篇】QT远程部署与调试嵌入式ARM开发板
  • JavaScript 中的设计模式:创建模式
  • JVM笔记(8)—— 直接内存
  • 11 OpenCV图像识别之人脸识别
  • Winform控件开发(14)——NotifyIcon(史上最全)
  • 力扣mysql刷题记录
  • STM32开发(15)----芯片内部温度传感器
  • 2022 赣育杯 CTF --- Crypto Lost_N wp
  • 一中国公民在日本滑雪场意外死亡,我领馆发布提醒
  • 42岁北京大学科学技术与医学史系副教授陈昊逝世
  • 卡洛·金茨堡:女巫与萨满——我的学术之路
  • 日本央行行长:美关税政策将冲击日本经济
  • 国家统计局:3月全国城镇不包含在校生的16-24岁劳动力失业率降至16.5%
  • 韩国国会未通过“内乱特检法”