大连网站建设开源怎样做自己的摄影网站
- 作者: 五速梦信息网
- 时间: 2026年03月21日 11:30
当前位置: 首页 > news >正文
大连网站建设开源,怎样做自己的摄影网站,广州英文网站建设,用vs2015做网站教程GPT-4 Technical Report论文阅读 文章目录 GPT-4 Technical Report论文阅读 Abstract训练的稳定性Training processPredictable scaling训练的稳定性多么难能可贵 Capabilities考试成绩传统的benchmark语言方面的能力Visual inputsSteerability LimitationsRisks mitigat…GPT-4 Technical Report论文阅读 文章目录 GPT-4 Technical Report论文阅读 Abstract训练的稳定性Training processPredictable scaling训练的稳定性多么难能可贵 Capabilities考试成绩传统的benchmark语言方面的能力Visual inputsSteerability LimitationsRisks mitigations哪些工作可能会被GPT-4取代未来研究方向 官方博客地址https://openai.com/research/gpt-4 Abstract
本篇虽然是GPT-4的技术报告但其中没有提到GPT-4的具体模型架构与训练过程主要就是讲他的结果。
GPT-4是一个多模态的模型能够接受文本或者是图片的输入最后输出纯文本GPT-4基本能够达到类人的表现在事实性、可控性和安全性上有了很大的进步 GPT-4在真实世界中与人还是存在差距但是在很多具有专业性或者学术性的数据集或者任务上面上GPT-4有时候能够达到甚至超过人类的水平GPT-4能够通过律师考试资格证考试且能在所有参加考试的人中排名前10%GPT-3.5在同样的考试中无法通过且只能排到最后10%
训练的稳定性
在此次GPT-4的训练过程中训练表现出了前所未有的稳定性
训练稳定硬件设施没有出错训练不会中断一次训练直接跑到底loss没有跑飞更重要的是可以准确预测模型训练的结果通过在小规模计算成本下训练出来的模型可以准确地预估扩大计算成本之后模型的最终性能
对于大模型来讲如果每次跑完训练才知道结果参数的好坏改进是否有效花销比较大一般会在较小的模型或者较小的数据集上做消融实验验证之后再去大模型上进行实验。对于语言模型来讲由于语言的扩展较大所以导致在小规模模型上做的实验可能有效但是换到大模型上就达不到想要的结果了并且大模型上特有的涌现能力在小模型上无法观测。
Training process
与之前的GPT模型类似GPT-4也是通过预测文章中下一个词的方式Language Modeling Loss去训练的训练所用到的数据是公开数据网络数据和公司所购买的数据
数据集非常大包含了非常多的内容比如数学问题的正确的解和不正确的解、弱推理、强推理、自相矛盾或者保持一致的陈述、各种意识形态和想法以及更多的纯文本数据因为在大量的数据集上训练过而且有的时候是在不正确的答案上训练过所以预训练模型Base Model有些时候的回答跟想要得到的回答相差很远。为了能跟人的意图尽可能保持一致并且更加安全可控所以使用RLHFReinforcement Learning with Human Feedback的方法对模型进行了微调
模型的能力看起来像是从预训练的过程中得到的后续RLHF所进行的微调并不能够提高在考试中的成绩如果没有好好调参甚至会降低考试的成绩
模型所谓的涌现的能力靠堆数据、堆算力然后用简单的Language Modeling Loss堆出来的
但是RLHF用来对模型做控制让模型更加清楚人类的意图并且按照人类所能接受的方式做出回答
这个预训练模型甚至需要prompt engineering才知道需要回答问题
Predictable scaling
GPT-4的关键问题在于如何构建深度学习的infrastructure然后准确地进行扩大
训练的主要原因是在大模型上是不可能做大规模的模型调参的首先需要很多的算力其次需要很长的训练时间。如果增加训练机器的数量训练的稳定性也不能保证多机器的并行训练很容易导致Loss跑飞
OpenAI研发出来了一套整体的infrastructure和优化方法可以在多个尺度上的实验上达到稳定预测
为了验证利用内部的代码库在GPT-4模型刚开始训练的时候就已经可以准确地预测到GPT-4最终训练完成的Loss预测结果是由另外一个Loss外推出去的用了比原始所需计算资源小一万倍的计算资源上用同样的计算方法训练出来的模型 图中绿色的点是GPT-4最终的Loss的结果纵坐标可以理解成Loss的大小单位是Bits per word横坐标表示所使用的算力这里将数据集的大小、模型的大小全部混在一起表示总体训练一个模型所需要的算力越往左模型的训练代价越小OpenAI通过将不同训练代价下的Loss点进行拟合从而准确得到GPT-4最终的Loss在同等的资源下可以以更快的速度尝试更多的方法最后得到更优的模型
下图也是类似只是任务不同但是得到的都是可预测的结果 但是还有一部分数据集是不能完全根据小模型预测的如inverse scaling prize竞赛专门给大模型找茬用来测试是否存在一些任务是小模型做的好大模型反而做不好的而且最好能够找到那些任务随着计算成本的增加任务的结果越来越差除了GPT-4 hindsight neglect过去做一件事情的时候使用很理性地判断做出一个决断这个决断按道理来讲是正确的但是运气不好导致最终的结果不是很好那么如果回到过去是继续选择当初选择的理性做法还是愿意赌一把选择一个更冒险的方式按道理来讲每次做选择都应该按照最理性的方式做选择但是大模型在这种情况下出现了一个很有意思的现象随着模型越来越大反而越来越不理性会根据最后的结果来判断到底应不应该做出决定GPT-4的准确度达到了100%从侧面说明了可能GPT-4已经拥有了一定的推理能力不会受到最后结果的影响
训练的稳定性多么难能可贵
斯坦福MLSYS 在MetaAi怎样用三个月的时间做了一个跟GPT-3同等大小的语言模型OPT-175Billion
地址https://www.bilibili.com/video/BV1XT411v7c9?t1283.6模型虽然性能一般但是整个过程干货比较多 OPT-175Billion在整个一个多月的训练过程中因为各种各样的原因机器崩掉网络中断、Loss跑飞等中间一共中断了五十多次图中的每一段不同颜色就代表跑的一段训练一个大的模型的工程复杂度是难以想象的所以GPT-4的成功除了大量算力的投入还需要很多的工程上的努力
Capabilities
考试成绩
在日常对话中GPT-3.5和GPT-4的区别是非常小的但是这个区别随着任务难度的增加慢慢会体现出来
GPT-4更加可靠更加具有创造力而且能够处理更加细微的人类的指示
为了弄清楚这两个模型之间的区别OpenAI设计了一系列的benchmark包含很多之前专门为人类设计的模拟考试使用了最近公开的一些数据比如奥赛题目、AP美国高中的一些大学先修课中的问题、购买的执照考试的版权数据。在这些考试上没有做过特殊的训练
可能有一些问题是之前在模型预训练的过程中被模型见过的这里OpenAI为了澄清他们跑了两个版本一个版本是模型直接考试然后汇报分数另一个版本虽然采用同样的模型但是把在预训练数据集中出现的问题拿掉只在那些模型可能没见过的问题上再做一次测试最后取这两次的分钟较低的那一次来作为GPT-4的分数。希望这么做能更加具有说服力。这里的问题去重并没有说明具体的方法GPT-4能在众多的考试中都取得较好的结果说明其参加考试的能力还是不错的 柱状图是按照GPT-3.5的性能从低到高进行排列的GPT-3.5在最右侧的AP Environmental Science中表现是最好的淡绿色no vision表示没有使用图片图中可以看出GPT-4在有了图片加持之后在有些考试上还能获得更大的进步在AP Caculus BC、AMC12、Codeforces Rating、AMC10上表现较差GPT系列在数学上的表现比较差此外虽然GPT-4能够修改文案修改语法、润色文章但是在高中英语文学课上以及高中英语语言本身的考试上得分都比较差。GPT系列的模型虽然能够生成大段大段的文字但是它所写出来的东西很多时候就是翻来覆去地说话都是一些空话大话非常冠冕堂皇并没有真正的思考从而形成深刻的洞见
具体的考试结果如下图所示 在生物竞赛中GPT-4的表现很好几乎是第一名但是在 Codeforces Rating写代码测试中GPT-4的表现并不如人意甚至在某些情况下表现更差
传统的benchmark
GPT-4在传统的benchmark上的性能测试结果如下图所示几乎刷新了之前的state-of-the-art 语言方面的能力
GPT-4在多语言上已经做得很好了不仅是英语语系中的各种语言对中文的支持也是不错的能够识别拼音的输入简体/繁体的转换也能够处理OpenAI为了进行测试将MMLU全部进行了翻译将14000多个多选题用微软的翻译全部翻译成不同的语言通过测试发现在26个语言中其中24个语言中的测试结果GPT-4都要优于GPT-3.5和其他的一些大模型Google的Chinchilla、PaLM而且甚至在那些没有什么训练语料库的语言Latvian、Welsh、Swahili上表现也很好 Visual inputs
GPT-4是一个多模态的模型可以接受图片作为输入
GPT-4可以允许用户任意自定义视觉或者语言任务不管用户输入的是文本、图片或者是图片和文本混合的形式GPT-4都能生成文本自然语言、代码GPT-4在其他任务上的表现也很不错尤其是test-time techniques
这是一个用VGA线给手机充电的图片很多时候GPT-4都能给出解释而且是一步一步的解释为什么搞笑 图中是一个截图并不是机器能够直接阅读的需要内部自己做一个OCR才能让模型知道图片中到底是什么内容截图中是一道法语描述的物理题GPT-4用英语进行了一步一步的解释最后得出答案 将一篇论文直接输入进GPT-4让它输出对论文的总结。GPT-4能够很好地总结所输入的论文 Steerability
定义语言模型的行为让语言模型按照用户所想要的方式进行答复
相比于ChatGPTChatGPT的人格是固定的每次都是同样的语调语气回复的风格也是一致的最新的GPT-4开发了一个新功能除了发给它的prompt描述用户需求的文字前面添加了System MessageSystem Message可以定义AI使用什么样的语气语调进行对话
作为一个苏格拉底式的辅导员回复永远都应该是保持苏格拉底的风格即永远不告诉学生真正的答案而是询问一些启发式的问题通过暗示来进行辅导让学生自己意识到问题的解决方式从而培养学生自己解决问题的能力。在这个过程中将难度较大的问题进行拆分在学生能够听懂的水平上进行因材施教。 Limitations
在能力和局限性方面GPT-4和之前的GPT系列模型差不多还是不能完全可靠有的时候还是会瞎编乱造扭曲事实并且推理的时候也可能会出错。因此在使用这些大模型的时候还是需要更加小心谨慎尤其是在一些高风险的领域法律、金融、新闻、政治中 虽然这些问题依然存在但是GPT-4跟之前其他的模型以及外面的模型相比在安全性上已经大幅提高了在OpenAI内部专门用来进行对抗性测试的Evaluation Benchmark上GPT-4比之前的GPT-3.5的得分要高出40%以上提升显著 图中纵坐标表示准确度横坐标表示OpenAI内部所使用的benchmark所涉及的领域 GPT-4本身还会有各种各样的偏见目前已经取得了一些进步但是还有很多需要做的 GPT-4一般是缺少2021年9月份之后的知识因为预训练数据就是截止到2021年9月份 但是ChatGPT有很多个版本可能后续微调或者RLHF的时候可能包含更新之后的数据所以有时候也能正确回答2021年之后的一些问题 GPT-4在很多的领域里都表现出强大的能力取得很高的分数但是有时候会犯一些非常简单的推理错误看上去有点不可思议 如果用户故意输入一些虚假的陈述GPT-4还非常容易上当受骗 在一些特别困难的问题上GPT-4跟人差不多都会出现安全隐患可能会写出不正确的代码。但是GPT-4哪怕有的时候预测错误了也会非常自信 通过研究发现这是因为经过预训练之后GPT-4的model calibration做的非常完美(calibration可以理解为模型有多大的自信认为自己的预测是对的) 从图中能够看出模型经过了完美的矫正,即模型对自己的预测越有信心他的预测就越可能是正确的可以因为预训练的语料库比较大已经掌握了客观事实的规律因此模型对自己产生的结果比较自信但是经过后处理Instructed Tuning或者是RLHF之后calibration的效果就没有了模型的校准就没有处理前好了可能是经过RLHF之后模型更接近于人具备一定的主观性因此校准性能就下降了
Risks mitigations
Red Teaming 通过找各个领域的专家询问模型该问和不该问的问题希望让模型知道哪些应该回答哪些不该回答通过人力的过程搜集数据从而提升GPT-4的能力能够拒绝不合理的要求 GPT-4还利用自己来提升安全性的要求在后续的RLHF的训练过程中又新加了一个专门做安全的reward signal 这个reward signal是从自己已经预训练好的GPT-4模型开始通过分类器分类当前prompt到底是不是sensitive是不是存在危险可能不应该进行回答通过reward signal让RLHF更加智能让模型更加贴合人的意图而且更加安全 这种减少risk的方式能够显著提升GPT-4的安全性能和GPT-3.5相比对于那些不该回答的问题GPT-4能比GPT-3.5少回答82%的问题
哪些工作可能会被GPT-4取代
论文GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models
大概有80%的美国劳动力会因为大语言模型的到来而受到影响大概是平时工作中10%的任务剩余90%的任务仍然需要人来完成19%的工人会发现有50%的工作有可能会被影响AI至少能够完成50%以上的工作任务受影响比较少的工作如果有做科研基础科学研究的能力或者思维比较缜密能够快速做出合理的决定这些技能点大语言模型暂时还不具备受影响比较多的工作和大语言模型冲突的技能点写代码、写文章。凡是和这两个技能点相关的工作可能会收到较大的影响
即使有些工作不会被GPT-4取代如服务员、泥瓦匠但是也会被其他的AI机器人取代。所以这篇文章讲的不会受影响的工作也是相对的所以没列出来。
未来研究方向
现在机器学习还有很多的问题悬而未决而且现在大语言模型遇到的问题其实跟30年前机器学习领域遇到的问题还是一样的现在依然不知道大语言模型到底是怎样工作、怎么泛化的
如何从单语言到多语言为什么会具有涌现的能力如何提高模型做推理的能力尤其是做因果推理需要更多的方式阻止语言模型生成有害的文字或者带来比较坏的社会影响目前模型仅仅局限于文本更多的问题都是在文本之外的还有更多的模态等待探索
相关文章
-
大连网站建设价格低做聚会的网站
大连网站建设价格低做聚会的网站
- 技术栈
- 2026年03月21日
-
大连网站建设价格低引航博景网站做的好吗
大连网站建设价格低引航博景网站做的好吗
- 技术栈
- 2026年03月21日
-
大连网络营销网站浏览器代理怎么弄
大连网络营销网站浏览器代理怎么弄
- 技术栈
- 2026年03月21日
-
大连网站建设意动科技公司docker.io wordpress
大连网站建设意动科技公司docker.io wordpress
- 技术栈
- 2026年03月21日
-
大连网站建设运营四川省建筑市场管理平台
大连网站建设运营四川省建筑市场管理平台
- 技术栈
- 2026年03月21日
-
大连网站建设在线南京网站开发价格
大连网站建设在线南京网站开发价格
- 技术栈
- 2026年03月21日






