首页 - 技术栈

电商网站建设行业现状计算机网站设计

作者: 五速梦信息网
时间: 2026年03月21日 11:24

当前位置：首页 > news >正文

电商网站建设行业现状,计算机网站设计,室内设计优秀案例网站,分析网站统计对网络营销的价值目录说在前面1.GPT1.1 引言1.2 训练范式1.2.1 无监督预训练1.2.2 有监督微调1.3 实验2. GPT22.1 引言2.2 模型结构2.3 训练范式2.4 实验3.GPT33.1引言3.2 模型结构3.3 训练范式3.4 实验3.4.1数据集3.5 局限性4. InstructGPT4.1 引言4.2 方法4.2.1 数据收集4.2.2 各部分模型4.3 … 目录说在前面1.GPT1.1 引言1.2 训练范式1.2.1 无监督预训练1.2.2 有监督微调1.3 实验2. GPT22.1 引言2.2 模型结构2.3 训练范式2.4 实验3.GPT33.1引言3.2 模型结构3.3 训练范式3.4 实验3.4.1数据集3.5 局限性4. InstructGPT4.1 引言4.2 方法4.2.1 数据收集4.2.2 各部分模型4.3 总结说在前面最近以GPT系列为代表的大语言模型LLM掀起了一阵热潮许多人惊叹LLM的震撼能力因此紧跟时代潮流学习GPT系列论文加深自己对LLM的理解。总的来说GPT整体的模型架构都是以Transformer的解码器为模块进行堆叠而成。主要的新意点集中在模型训练策略还有就是讲究一个大力出奇迹。以下内容是跟着沐神B站视频以及自己搜寻的一些资料学习并加以总结提炼得来。如有错误欢迎指正。 B站视频GPTGPT-2GPT-3 论文精读【论文精读】——李沐 1.GPT 论文“Improving Language Understanding by Generative Pre-Training”2018.6. 1.1 引言在自然语言处理领域有很多各式各样的的任务如问答文本分类等。然而现有的无标签文本非常多而有标签的文本很少这使得在这些有标签文本训练一个好的分辨模型很难因为数据集太少。因此GPT第一个版本主要就是为了解决这个问题而提出的一套针对语言模型的预训练方法使得大量的无标签数据能够被使用并且对预训练好的模型加以微调使其适用于许多的下游任务。 1.2 训练范式无监督预训练有监督微调 1.2.1 无监督预训练论文中的描述是下面这段话简单来说就是根据上文的k个单词预测下一个最大概率的单词。
1.2.2 有监督微调在得到预训练模型后就使用有标签的数据进行微调。具体来说每一次我给你一个长为m的一个词的序列然后告诉你这个序列它对应的标号是y也就是每次给定一个序列预测他这个y。微调优化目标是最小化分类目标函数。然后总的损失除了考虑微调损失还考虑了预训练部分的损失并用λ加权。 1.3 实验实验主要关注两点。第一点是GPT在一个叫做BooksCorpus 的一个数据集上训练出来的这个地方有7,000篇没有被发表的书。第二个是GPT整体模型用了12层的一个Transformer 的解码器每一层的维度是768。

GPT2 论文Language Models are Unsupervised Multitask Learners2019 2.1 引言自从GPT提出后Google紧随其后提出了BERT预训练模型采用更大的模型和更大的数据在各方面效果都要优于GPT。作为竞争对手GPT当然是要反击的那怎么做呢如果单纯加大模型于增加数据量或许能击败BERT但是却少了些新意因此GPT2从另外一个角度除了加大模型和数据量还引入了zero-shot设定就是在做下游任务是不需要下游任务的任何标签信息也不需要重新训练一个模型即在更难的一个设定上体现他的一个新意度。 2.2 模型结构 GPT2也是基于Transformer解码器的架构作者设计了4种大小的模型参数结构如下可以看到最大模型的参数量已经去到了15个亿。还有一个细节就是GPT2调整了transformer解码器结构将layer normalization放到每个sub-block之前并在最后一个Self-attention后再增加一个layer normalization。 2.3 训练范式采用预训练zero-shot的训练范式。为实现zero-shotGPT2在做下游任务时输入就不能像GPT那样在构造输入时加入开始、中间和结束的特殊字符因为这些特殊字符是模型在预训练时没有见过的。正确的输入应该和预训练模型看到的文本一样更像一个自然语言。比如在做机器翻译时直接可以输入“请将下面一段英文翻译成法语英文文本”由于在训练时可能已经存在很多这样的翻译文本样例因此模型就可以实现输出一段法语。 2.4 实验数据集Webtext包含4500w个链接的文本信息总计800w的文本和40GB的文字。训练GPT-2去掉了fine-tuning训练只保留无监督的预训练阶段不再针对不同任务分别进行微调建模而是不定义这个模型应该做什么任务模型会自动识别出来需要做什么任务。 3.GPT3 论文Language Models are Few-Shot Learners2020 3.1引言 GPT2实验采用了zero-shot设定在新意度上很高但是有效性却比较低。而GPT3则是尝试解决GPT2的有效性因此回到了GPT提到的few-shot设置即模型在做下游任务时可以看到一些任务的样例而不是像GPT2那样啥样例都不给。此外GPT3还是只采用无监督预训练方式那么传统的二阶段训练方式预训练微调有什么问题二阶段训练方式在预训练好一个模型后还需要一个与任务相关的数据集以及跟任务相关的微调方式。这样的问题一是微调需要一个较大的有标签数据对于一些如问答型任务做标签是很困难的其次就是当一个样本没有出现在数据分布里是微调模型的泛化能力不一定好即尽管微调效果好也不一定说明预训练的模型泛化能力好因为极有可能微调是过拟合了预训练的训练数据或者说预训练训练数据和下游任务数据有一定重合性所以效果会好一点最后就是以人类角度来阐述为什么不用微调就是说人类做任务不需要一个很大的数据集进行微调比如一个人有一定的语言功底让你去做一个别的事情可能就是告诉你怎么做并提供几个样例就可以了GPT3就是采用一样的思想。总的来说GPT3就是一个参数特别大效果也很好的一个模型。 3.2 模型结构 GPT3模型架构和GPT2是一致的只是把transformer换成了Sparse Transformer中的结构并提出了八种模型结构之所以用大批次是因为这样计算性能好这样能充分利用机器的并行性因为批次一大每台机器的并行度就越高。对于小模型不采用太大批次是因为小模型更容易过拟合这样在比较小的一个批次采样数据的噪音会比较多 3.3 训练范式采用预训练few-shot的训练范式。复习一下GPT3提到的几个shot:zero-shot,one-shot,few-shot: 几种训练方式简单概括如下 1.fine-tuning预训练微调计算loss更新梯度然后预测。会更新模型参数 2.zero-shot预训练 task description prompt直接预测。不更新模型参数 3.one-shot预训练 task description example prompt预测。不更新模型参数 4.few-shot预训练 task description examples prompt预测。不更新模型参数 3.4 实验 3.4.1数据集基于common Crawl做了数据清洗首先是将common Crawl数据当作负例将GPT2的数据当作正例然后在这上面做了个很简单的逻辑回归进行分类来判定common Crawl哪些数据是好的如果预测到common Crawl的样例是正例说明这条数据质量是比较高的二是做了去重处理采用lsh算法可以很快判定两个集合包含不同文档的单词的相似性最后是额外增加已知的一些高质量数据就是BERT,GPT,GPT2采用的数据集都加进来。
3.5 局限性 1.生成长文本依旧困难比如写小说可能还是会重复 2.语言模型只能看到前面的信息 3.语言模型只是根据前面的词均匀预测下一个词而不知道前面哪个词权重大 4.只有文本信息缺乏多模态 5.样本有效性不够 6.模型是从头开始学习到了知识还是只是记住了一些相似任务这一点不明确 7.可解释性弱模型是怎么决策的其中哪些权重起到决定作用都不好解释 8.负面影响可能会生成假新闻可能有一定的性别、地区及种族歧视。
InstructGPT 论文Training language models to follow instructions with human feedback2022 4.1 引言把自然语言模型做大并以代表他们可以更好按照用户意图来做事大语言模型很可能会生成一些不真实的有毒的或没有帮助的答案显然GPT3还是没做好的。在工程中安全性有效性是很重要的因此提出InstructGPT使得大语言模型的输出更符合人类意图主要采用的方法是在人类反馈上做微调。InstructGPT总结来说就是干了两件事一是雇佣了一批标注工人去标注一个数据集然后训练出来了一个模型。二是又做了一个排序的数据集用强化学习训练了一个模型。惊喜的发现1.3B的InstructGPT模型要优于175B的GPT3模型。大语言模型LLM可以通过提示prompt的方法把任务作为输入但是模型仍然会有一些不想要的输出如捏造事实生成偏见等。作者的主要观点是LLM的目标函数不是那么准确就是真正训练的目标函数和根据人类指令安全地和有帮助的生成答案是有区别的。所以InstructGPT的出发点就是想让LLM更有帮助性和安全性。 4.2 方法主要分三步走首先是在GPT3使用人类标注数据进行微调得到一个模型叫做SFTsupervised fine-turning事实上这个模型是可以用的只不过人类标注的答案有限不可能把各式各样或者各种任务的答案都考虑因此有了第二步。第二步是给定问题让之前训练好的模型SFT生成多个答案采用束搜索或者随机采样然后对答案进行人工排序得到标注后的排序序列以此训练一个RM即reward model奖励模型。第三步就是根据RM结果继续微调第一步的SFT使得生成的答案得分尽可能高。以此不断强化学习 4.2.1 数据收集 1.让标注人员写一些问题和答案包含三方面的prompt 以这些数据训练了第一个InstructGPT 2. 将第一个InstructGPT发布在一个试玩平台让用户在上面体验以此获取用户提出的prompt。然后按用户每个用户最多筛选200个prompt以此获取更多的数据。 3.总共构建出三个数据集一是标注工直接对prompt写答案获得的有标注数据集二是一个排序的数据集也就是上面提到的让标注工对SFT输出答案进行排序标注构建的数据最后一个是ppo数据集供强化学习使用的这个就无需标签。
4.2.2 各部分模型 Supervised fine-turningSFT 这部分模型简单来说就是用上述的人工标注数据在GPT3做微调得到的一个模型。作者微调设置了16个epoch发现会有第一个epoch就过拟合了。但是优于这个模型不是直接拿去用的二是用于初始化模型发现过拟合也没什么问题Reward Model(RM) 这里主要关心的是奖励怎么算。正常来说GPT3在最后的输出层会输入softmax输出概率但是在RM这里就不用softmax层了而是额外加一个线性层将输出映射到一个值上面这个值就是reward。RM模型损失如下采用的是逻辑回归损失这里的x相当于是prompt而yw和yl就是模型输出的其中一对答案。其实整个目标就是尽可能使得yw的得分比yl要大这里就是前面说的答案的一个排序的问题。K论文取9就是生成九个答案然后两两计算损失Reinforcement Learning(RL) 作者这里采用的是强化学习里的PPO模型整体的一个目标就是最大化奖励预训练目标函数的整体结果
4.3 总结整体来说InstructGPT就干了三件事分别就对应上面的三个步骤。那么其实InstructGPT还是有一定的限制比如在构建数据集上语种的考虑不太全模型也不是完全的安全的还是会产生各种问题。文章主要还是提升模型的一个帮助性方面的问题安全性还是没有太多的解决。