静态双语企业网站后台源码望牛墩网站建设

当前位置: 首页 > news >正文

静态双语企业网站后台源码,望牛墩网站建设,手机网站制作工具,一键logo生成器人的行为#xff0c;究竟是人所带来的思维方式不同还是与机器一样#xff0c;刻在脑海里的公式呢#xff1f; 只是因为不同的人公式不同#xff0c;所以人的行为才不同#xff0c;可这又真的是人引以为傲的意识吗#xff1f; 人脑只是相当于一个大型、驳杂的处理器#… 人的行为究竟是人所带来的思维方式不同还是与机器一样刻在脑海里的公式呢 只是因为不同的人公式不同所以人的行为才不同可这又真的是人引以为傲的意识吗 人脑只是相当于一个大型、驳杂的处理器所以即使我们再重走一次曾经的路结果也不会改变                                                                                                                             —— 25.2.16 LLM(Large Language model)大语言模型出现在ChatGPT之后出现在此之前出现的模型我们称之为预训练模型如GPT3 大模型的“大”主要体现在参数量级之上如Bert模型参数量仅有0.1B而前段时间推出的DeepSeek模型参数量达到了671B二者参数量的区别达到上千倍 一、ELMo ELMo发表在Bert之前提出了预训练思想其训练方式依旧是由前文预测后文的自回归语言模型 其与现在主流的预训练模型的区别是在于其当时使用LSTM作为其模型主体结构 建议的下游任务使用方式【将ELMo向量与词向量拼接输入下游模型】 将预训练好的ELMoLSTM预训练模型将其权重冻结保持模型权重不进行更新然后将权重冻结与正常的词向量拼接起来送入一个RNN语言模型 二、GPT GPT模型也出现在Bert模型之前启用了Transformer作为核心编码器 开始使用特有token连接不同的句子 Start开始符token Delim分隔符token Extract结束符token 将句子分割后送入Transformer进行编码编码后线性层进行分类预测 GPT语言模型采取单向方式 即由前n个字预测下一个字 在语言模型预训练的基础上增加了有监督任务训练 GPT通过下游任务准确率的对比明确指出预训练的是有效的transformer是好用的 三、Bert MASK LM MLM任务给一个长的序列中间一个词mask掉模型把mask处理后的序列传入Transformer最后由线性层将这个mask的词预测出来周围词预测中间词 Next Sentence Predict NSP任务输入两句话中间用一个分隔符隔开用【cls】token向量判段两句话是否是上下文关系 Bert证明了MLM预训练强于单向训练LTR  left to right任务 现在发现生成式任务更适合用LTR任务做预训练 四、预训练模型的发展过程 ① ELMo经过预训练步骤我们可以对预测获得一定程度提升可把预训练作为一种预测效果提升的手段 ② GPT提升效果很明显预训练是有效的Transformer是好用的 ③ Bert预训练是模型不可或缺的组成部分 五、国内公司跟进预训练工作 1.Ernie-baidu Mask随机token —— Mask某一特定实体或词组 验证得到在一系列中文数据集非生成式任务上效果强于BERT 可以以完形填空的方式完成知识问答 这种做法在本质上相当于在预训练中加入了先验知识提前告知哪些词是词组可以更好的学习该语言 但是这也意味着对未知语言可能会无法使用该策略 2.Ernie- Tsinghua 引入知识图谱将实体信息融合到预训练任务中 将知识图谱中训练到的一些图谱表示的向量与BERT向量进行一个组合再通过Transformer然后做一些特定的预测 Ernie强调了额外知识的重要性 六、GPT2 继续使用单向语言模型 继续使用transformer模型结构小改归一化层的位置进行调整 模型改进在于Bigger model模型结构不变模型参数增多、more data数据量增多 文本生成能力可圈可点 提出思想NLP任务不应该有通过下游任务微调的环节 强调zero-shot不需要做下游任务的微调 任何一个任务都可以看作生成式任务来做我们将输入和任务一同送入模型然后让模型直接输出任务结果 例做一个英法翻译任务输入一句话再输入一个专门的task token代表目标是转为法语然后我们通过生成式任务目标为模型直接输出法语直接转换为法语 以如今的视角来看task token接近于提示词的作用 GPT2大规模语言模型可以在不做有监督训练的情况下完成许多任务 七、UNILM UNIfied pre-trained Language Model使用不同的Mask 使用Bert的模型结构同时进行Mask LM单向LM和seq2seq训练 使得预训练后模型可以更好的应用在生成式任务上如机器翻译和机器摘要等 UNILM依靠 mask 控制哪些词参与 context embedding 的计算 Mask的部分将允许参与attention计算的元素设为0将不允许参与attention计算的元素设置为负无穷其他部分不变计算自注意力分数 UNILM解决了原生BERT在生成式任务上的短板只需要更改Mask方式 八、Transformer - XL XLNet Transformer-XL 和 XLNet 都是自然语言处理领域中基于 Transformer 架构的重要模型希望解决Transformer的长度限制问题输入文本长度受最大位置编码影响 1.循环机制  Recurrence Mechanism Transformer-XL是一种对Transformer模型的变化将RNN的思想【tanh(Ux Wh)】引入Transformer中解决超长序列的问题 XLNet是以Transformer-XL为结构的模型 记忆前面字预测的输出结果加入到当前字的预测结果中去在Transformer中将前一段文本的隐向量与后一段文本向量拼接之后计算attention 公式 2.相对位置编码 Relative Positional Encodings ① 绝对位置编码 BERT模型采用的编码是绝对位置编码因为其对于一段文本中的所有位置都进行固定 公式 Eword embedding        Uposition embedding        Wq、WkTransformer模型中的参数q和参数k ② 相对位置编码 将两个位置的绝对编码Ui、Uj换成了两个位置的差值Ri-j不可训练的正弦编码矩阵避免了输入文本长度受最大位置编码影响的现象 公式 Ri-j不可训练的正弦编码矩阵non-trainable sinusoid encoding matrix序列中的每个位置都有唯一的编码向量。高频分量对应较小维度可捕捉局部细节低频分量对应较大维度能捕捉全局信息。对于任意两个位置m和n该编码能表示它们之间的相对位置关系。 公式 u, v 可训练的参数trainable 3.训练XLNet的预训练目标 ① 自回归语言模型预训练 AR语言模型auto regressive language model 【GPT】 特点单向预测下一个字 缺点缺少双向信息 ② 自编码语言模型预训练 AE语言模型auto encoding language model 【BERT】 特点双向信息输入预测中间某个mask的字 缺点引入了[mask]但在实际任务中不存在预训练与使用过程不一致效果可能有缺 ③ XLNet语言模型预训练 AR语言模型与AE语言模型融合 Permutation Language Model 首先打乱输入的句子顺序之后进行单向预测 特点不需要添加Mask token并且含有双向句子信息 Transformer - XL XLNet修改预训练目标同时修改模型结构带来一定的效果提升 九、Roberta Robustly optimized BERT approach 模型结构不变训练方式调整 ① 更多的数据更大的batch size更久的训练 ② 去掉next sentence prediction 前后句上下文关系的预测 ③ 使用更长的样本 ④ 动态改变mask位置在多轮训练中改变mask所在的位置可以更好的利用语料 Roberta挖掘旧的方法的潜力有时比创新还要有效模型结构不变训练方式调整 能够最大限度的发挥一种算法的能力是算法工程师能力的体现 十、SpanBert 模型结构不变对Bert训练目标改动 ① 去掉了NSPnext sentence prediction任务 ② 随机mask几个连续的token ③ 新的预训练任务SBOSpan Boundary Objective连续mask一个片段三个参数片段的首尾和词在mask片段中的位置编码 1.SBO任务 Xs-1代表mask片段之前的第一个token的Embedding Xe1代表mask片段之后的第一个token的Embedding Pi-s1代表目标token的Position Embedding SBO预测层将三个向量拼接起来过线性层、激活层、归一化层最终得到预测值 2.Mask片段长度采样分布 Mask指定实体或名词短语效果不如mask随机片段 NSP作用不大不如不加不如SBO SpanBert大模型更多的数据不是唯一出路改变训练目标也有很大影响 十一、ALBERT 试图解决Bert模型过大的问题 想办法减少参数量

  1. Factorized embedding parameterization     Embedding层的参数因式分解 Bert模型参数量大小词表大小 × 隐单元个数 ALBERT将词嵌入矩阵的维度 V × H 分解为两个矩阵 V × E 和 E × H其中 V 是词汇表大小H 是隐藏层维度E 是一个较小的中间维度。这样可以在不损失模型表达能力的情况下显著减少词嵌入参数的数量。 2. Cross-layer parameter sharing 跨层参数共享有多种共享方式
    ① 只共享attention部分 参数q、k、v、o ② 只共享feed-forward部分 两个线性层 一个激活层 ③ 全部共享 参数量降为1/12 3.更换预训练目标 论文认为NSP任务过于简单用SOPSentence order prediction任务替代NSP任务 SOP任务输入两句话预测两句话的前后顺序关系同样是二分类任务 例 [CLS] 你好啊bert [SEP] 好久不见 [SEP] —— Positive [CLS] 好久不见 [SEP]你好啊bert [SEP] —— Negative 数据采样方式给出前后连续两句话有50%的概率交换两句话的位置让模型判断位置顺序是否颠倒 4.局限性 ① 虽然目的在于缩减参数但缩减参数并没有带来正向的效果模型效果依然是参数越大越好 ② 虽然缩减了参数但是前向计算速度没有提升总参数量下降训练速度有提升预测速度没有很大提升 ALBERT工程角度讲价值不大但是证明了参数量并非模型能力的绝对衡量标准 十二、DistillBert 模型蒸馏技术 DistillBert蒸馏版Bert 传统的模型蒸馏技术小的模型正常进行预训练过程hard prediction计算完成后与真实标签用交叉熵损失函数计算lossstudent loss超大模型会输出下一个字在词表大小上的概率分布然后以 小模型当前输出的概率分布soft prediction与超大模型输出的概率分布soft labels之间两者较为接近 作为一个新的训练目标以KL散度作为损失函数计算lossdistillation loss然后把student loss 和 distillation loss相加一起训练一定程度上包含了Teacher model的信息 小模型从大模型输出的概率分布进行学习对一个问题由大模型本身进行回答构造任务的X 和 Y然后让小模型对大模型构造的数据进行学习然后用小模型输出 与 通过大模型得到的Y值计算loss再计算 小模型输出与大模型输出的概率分布之间的loss同时计算这两者这在如今也被称为模型蒸馏技术也属于数据增强范畴 我们希望这个蒸馏后的小的模型能够较为接近这个超大模型的效果 Teacher model效果较好的超大模型【老师模型】 Studentdistilled model蒸馏后的较小模型【学生模型】 优点包含的信息量更大包含的概率分布更加平滑下一个字的概率分布不应该是一个非0即1的形式 损失函数 —— KL散度 KL散度是一种衡量两个概率分布也可简单理解为向量之间差异的算法。经常作为神经网络的loss函数使用。 与交叉熵计算过程实际非常接近但交叉熵通常要求target是one-hot形式。 计算步骤 ① 计算比值P(x)​ / Q(x)。 ② 取对数对每个比值取自然对数。 ③ 加权求和用真实分布 P(x) 作为权重对所有事件求和。 ④ 当P与Q的概率分布完全一致时损失值loss最低 示例Teacher modelP [0.2, 0.4, 0.4]        Studentdistilled modelQ [0.4, 0.2, 0.4] 公式 老师模型的概率分布 × log老师模型的概率分布 / 学生模型的概率分布 KL(P, Q) 0.2 * log(0.2 / 0.4) 0.4 * log(0.4 / 0.2) 0.4 * log(0.4 / 0.4) 0.1386294361 KL散度与交叉熵的关系 交叉熵H(P,Q)与KL散度的关系为 十三、T5 Text-to-Text Transfer TransformerEncoder - Decoder架构 生成式任务上only - decoder结构效果相对更强一些 Seq2seq方法理论上可以解决一切NLP问题【一切NLP问题都可以转化为生成式问题】 分类问题文本  -  标签 命名实体识别文本  -  实体 摘要、翻译文本  -  文本 回归问题文本 - 0.1(字符串) 预训练任务设计 text corruption 预训练任务目标与Bert类似Bert模型运用mask方式进行训练T5模型训练原理与Mask类似把中间的一部分内容Mask掉用token替代被mask的文本输出时再用token预测回被mask的文本作为训练目标 从如今的视角来看生成式任务更适合应用从左往右由前文预测后文的自回归结构 T5我们有希望将NLP中的所有任务都当作一个生成式任务来做迈向NLP的大一统 十四、GPT3 提高模型参数量1750 亿参数量是GPT-2的116倍 模型结构与GPT-2相同 继续使用单向自回归语言模型预训练 研究表示不需要 Pre-training fine-tune【预训练 下游任务微调】的学习方式而应该注重 Pre-training Zero-, One-, Few-shot【预训练 零样本 / 单样本 / 小样本】的学习方式 理由 ① fine-tune需要的数据经常是缺失的 ② fine-tune会涉及对模型进行改造使其变复杂并失去泛化性 ③ 人类学习做新任务并不需要很多样本 1. Zero-shot零样本学习 定义模型无需目标类别的训练样本直接通过语义描述或属性推理完成任务。实现原理 依赖预训练阶段学到的跨模态关联如CLIP通过文本描述匹配图像。利用任务描述的Prompt直接引导模型生成答案如“Lets think step by step”。 典型应用图像分类未见类别、文本生成新领域指令。 2. One-shot单样本学习 定义仅需一个目标类别的示例即可适应新任务。实现原理 元学习在预训练基础上通过少量参数调整如Adapter模块快速适应新样本。示例引导在Prompt中提供1个示例模型模仿其模式生成结果如模仿写作风格。 典型应用员工刷脸打卡新员工仅需一张照片、罕见病诊断。 3. Few-shot小样本学习 定义利用少量样本通常2-5个提升 模型在特定任务上的性能。实现原理 指令微调通过多样化任务数据如问答对、推理步骤调整模型参数增强泛化能力。动态示例选择使用BM25等算法从池中选择与当前输入最相关的示例。 典型应用多分类任务如5-way-5-shot、复杂推理需多步CoT提示 GPT3人工智能的目标像人一样的学习能力 十五、从“续写”到“回答”  Bert输入文字——经过Bert用前文预测后文——添加线性层—— 然后作一个微调进行分类 使用bert类模型通用模型微调需要一个随机初始化的线性层成为一个专用的模型这为使用带来了不便 LLM模型永远生成文本用文本描述各种各种任务的答案解释给出答案 训练方式统一推理方式统一永远是一个固定的模型以文字方式回答任何问题 十六、InstructGPT 1.InstructGPT 的核心技术人类反馈强化学习RLHF InstructGPT 的核心创新在于将 人类反馈强化学习Reinforcement Learning from Human Feedback, RLHF引入语言模型训练解决了传统模型生成内容偏离用户意图、存在偏见或有害信息的问题。 2.训练流程 ① Pretraining训练 前文预测后文自回归语言模型 需要大量的训练数据 知识主要在Pretrain阶段注入 3.训练流程 ② 监督微调Supervised Fine-Tuning, SFT训练 使用人工标注的高质量指令-响应数据对 GPT-3 进行微调使模型初步具备遵循指令的能力。数据包括用户提示如“解释登月”和人工编写的理想回答。 与Pretraining类似输入变成一问一答的形式输入的问题与答案之间用一个分隔符sep隔开由分隔符sep开始预测答案的第一个字由预测出的答案的第一个字再去预测答案的第二个字循环这个过程直到预测到终止符eos为止将这段预测的文本作为这个问题的答案 只计算圈内部分的loss值当给出一定数量的问答对数据进行训练这个模型就变成了由“续写”到“回答”的模型 SFT的mask问题全部可见对于答案输出后面的字只能看到前面的字给一定量的数据让模型理解我们希望生成类似的回复 mask形状 4.训练流程 ③ 奖励模型训练Reward Modeling, RM 模型生成多个候选响应人工标注员对结果排序如质量从高到低训练一个奖励模型以量化响应质量。这一步将人类偏好转化为可计算的奖励信号。 5.训练流程 ④ 强化学习微调Reinforcement Learning, RL 基于奖励模型的反馈通过近端策略优化PPO算法调整语言模型参数使生成内容更贴近人类偏好。这一阶段让模型实现“智能对齐”显著提升输出的安全性和有用性。 6.与 GPT-3 的关键差异 维度GPT-3InstructGPT设计目标预测互联网文本的统计模式理解并执行用户指令生成对齐内容训练方法无监督预训练 零样本/小样本学习RLHF 三阶段训练结合人类反馈输出质量可能偏离指令、包含偏见或错误更精准、安全、符合人类价值观参数量效率依赖大规模参数175B仅 1.3B 参数即可超越 GPT-3 表现 7.应用场景与优势 ① 精准指令执行 自动客服生成符合用户需求的答案减少歧义。 代码生成根据指令编写代码片段或优化现有代码。 文档生成按指令输出结构化报告、合同等。 ② 安全性与无害性  通过人类反馈过滤有害内容减少种族歧视、性别偏见等风险。 ③ 任务泛化能力 在复杂指令如多步骤推理中表现优于传统模型例如数学运算、逻辑分析。 8.技术突破与影响 ① 对齐性优化 InstructGPT 首次系统性解决了语言模型与人类意图的“对齐鸿沟”为后续 ChatGPT 的对话形态奠定了基础。 ② 小模型高效性 1.3B 参数的 InstructGPT 在人类评估中击败 175B 的 GPT-3证明对齐技术可降低模型规模依赖。 ③ 行业范式革新 RLHF 成为大模型训练的核心范式尽管后续研究尝试替代方法如 DPO但其效果仍未被超越。 9.未来挑战 标注成本高依赖人工标注反馈规模化应用受限。 泛化边界对超出训练分布的指令可能失效。 多模态扩展如何将 RLHF 应用于图像、视频等多模态生成仍需探索。