深圳网站建设开发公司哪家好WordPress需要多大mysql
- 作者: 五速梦信息网
- 时间: 2026年04月20日 09:20
当前位置: 首页 > news >正文
深圳网站建设开发公司哪家好,WordPress需要多大mysql,怎么让百度快速收录网站,wordpress数据库位置。
在本章中#xff0c;将引导您完成为应用程序选择合适LLM的过程。我们将涵盖以下几个主题#xff1a;
市场上最具前景的LLM概览比较LLM时应使用的主要标准和工具规模与性能之间的权衡
在本章结束时#xff0c;您应该能够清楚地理解如何为您的应用程序选择合适的LLM将引导您完成为应用程序选择合适LLM的过程。我们将涵盖以下几个主题
市场上最具前景的LLM概览比较LLM时应使用的主要标准和工具规模与性能之间的权衡
在本章结束时您应该能够清楚地理解如何为您的应用程序选择合适的LLM并如何有效且负责任地使用它。
市场上最具前景的LLM
过去一年见证了LLM研究和开发的前所未有的激增。不同的组织发布或宣布了多个新模型每个模型都有其独特的功能和能力。其中一些模型是有史以来规模最大、最先进的模型超越了先前的最先进水平SOTA而且是数量级的提升。其他模型虽然较轻但在特定任务上更为专门化。
在本章中我们将回顾截至2024年市场上最具前景的一些LLM。我们将介绍它们的背景、关键发现和主要技术。我们还将比较它们在各种基准测试和任务中的表现、优势和局限性。此外我们还将讨论它们的潜在应用、挑战以及对AI和社会未来的影响。 针对所有自学遇到困难的同学们我帮大家系统梳理大模型学习脉络将这份 LLM大模型资料 分享出来包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 有需要的小伙伴可以 扫描下方二维码领取↓↓↓ CSDN大礼包全网最全《LLM大模型入门进阶学习资源包》免费分享安全链接放心点击 专有模型
专有LLM由私人公司开发和拥有且其代码未公开。通常使用这些模型需要支付费用。
专有模型提供了一系列优势包括更好的支持和维护以及安全性和一致性。由于其复杂性和训练数据集的原因它们在泛化能力方面往往优于开源模型。另一方面它们作为一个“黑盒”运行意味着所有者不会向开发者披露源代码。
在接下来的部分中我们将介绍截至2023年8月市场上三款最受欢迎的专有LLM。
GPT-4
GPT-4于2023年3月发布与其新发布的“姊妹”模型GPT-4 Turbo一起是OpenAI开发的最新模型之一是本书撰写时市场上的顶尖模型之一同时OpenAI的CEO Sam Altman已经确认他们正在开发GPT-5。
它属于生成预训练转换器GPT模型类别这是一种由OpenAI引入的仅解码器的转换器架构。下图显示了其基本架构 如上图所示仅解码器架构仍然包含我们在第一章中讨论的变压器架构中的主要元素包括位置嵌入、多头注意力和前馈层。然而在这种架构中模型仅由解码器组成训练的目的是基于前面的标记来预测序列中的下一个标记。与编码器-解码器架构不同仅解码器设计缺少一个用于总结输入信息的显式编码器。相反信息隐含地编码在解码器的隐藏状态中并在生成过程中每一步进行更新。
现在我们来看一下GPT-4相较于之前版本的一些改进。
与GPT系列的前几代模型一样GPT-4在公开可用的数据集和OpenAI许可的数据集上进行了训练OpenAI未公开训练集的确切组成。此外为了使模型更符合用户的意图训练过程还包括了从人类反馈中进行的强化学习RLHF训练。 定义 RLHF基于人类反馈的强化学习是一种旨在利用人类反馈作为评估LLM生成输出的标准然后使用该反馈进一步优化模型的技术。实现这一目标的主要步骤有两个 基于人类偏好训练一个奖励模型。根据奖励模型优化LLM。这个步骤通过强化学习来完成这是一种机器学习范式在这种范式中智能体通过与环境互动来学习决策。智能体根据其行为接收到奖励或惩罚形式的反馈其目标是通过不断适应行为以试错的方式最大化长期累积的奖励。 通过RLHF借助奖励模型LLM能够从人类偏好中学习并更好地与用户的意图保持一致。 以ChatGPT为例。该模型集成了多种训练方法包括无监督预训练、监督微调、指令调优和RLHF。RLHF组件涉及通过使用来自人类训练师的反馈训练模型来预测人类偏好。这些训练师会审查模型的响应并提供评分或修正引导模型生成更有帮助、更准确、更符合用户意图的响应。 例如如果一个语言模型最初生成的输出不够有帮助或不够准确人类训练师可以提供反馈指出首选的输出。然后模型利用这一反馈调整其参数以改善未来的响应。这个过程不断迭代模型从一系列人类判断中学习以更好地符合人类标准下的有用性或适当性。 GPT-4 展示了在常识推理和分析能力方面的卓越表现。它已经与最先进的系统进行了基准测试包括我们在第一章中讨论过的大规模多任务语言理解MMLU。在MMLU测试中GPT-4不仅在英语方面优于之前的模型还在其他语言中表现出色。
以下是展示GPT-4在MMLU上表现的插图 除了MMLU之外GPT-4还在多种最先进的系统和学术考试中进行了基准测试您可以从下图中看到其表现 注意在上图中您可以看到两个版本的GPT-4一个具有视觉能力一个没有视觉能力同时还有用于基准测试的GPT-3.5。这是因为GPT-4是一个多模态模型意味着它除了文本之外还可以将图像作为输入。然而在本章中我们只会对其文本能力进行基准测试。 GPT-4 相较于其前身GPT-3.5 和 GPT-3的另一个重大改进是显著减少了幻觉风险。 定义 幻觉是一个用来描述现象的术语当LLM生成的文本不正确、无意义或不真实但看起来却似乎合理或连贯时就会发生这种现象。例如一个LLM可能会虚构一个与来源或常识相矛盾的事实一个不存在的名字或者一个没有意义的句子。 幻觉的产生是因为LLM并非数据库或搜索引擎它们并不存储或检索事实信息。相反它们是基于统计模型从海量文本数据中学习并根据所学的模式和概率生成输出。然而这些模式和概率可能并不反映真实情况或现实因为数据可能是不完整的、噪声的或存在偏见的。此外LLM的上下文理解和记忆能力有限因为它们一次只能处理一定数量的标记并将其抽象成潜在的表示。因此LLM可能会生成没有任何数据或逻辑支持的文本但这些文本在提示下可能是最有可能或最相关的。 事实上尽管它仍然无法做到100%的可靠但GPT-4在TruthfulQA基准测试中取得了显著的改进该测试评估模型区分事实和错误陈述的能力我们在第一章的模型评估部分中讨论过TruthfulQA基准测试。在这里您可以看到一个插图比较了GPT-4在TruthfulQA基准测试中的结果与GPT-3.5OpenAI的ChatGPT背后的模型和Anthropic-LM的结果我们将在后面的章节中讨论该模型。 最后在GPT-4的开发中OpenAI 进行了额外的努力使其更加安全和符合规范从一开始就组建了一个由50多名专家组成的团队这些专家来自AI对齐风险、隐私和网络安全等领域旨在理解这种强大模型的风险程度并找到预防措施。 定义 对齐是一个描述LLM行为与其人类用户需求的有用性和无害性程度的术语。例如如果一个LLM生成的文本准确、相关、连贯且尊重他人它就可以被认为是对齐的。如果一个LLM生成的文本是错误的、具有误导性、有害的或冒犯性的它就可能是未对齐的。 得益于这一分析更多的数据被收集并用于训练GPT-4以减轻其潜在风险从而使其风险相比前代模型GPT-3.5有所降低。
Gemini 1.5
Gemini 1.5 是由谷歌开发的最先进的生成式AI模型于2023年12月发布。与GPT-4一样Gemini设计为多模态模型这意味着它可以处理和生成跨多种模态的内容包括文本、图像、音频、视频和代码。它基于专家混合MoE变压器架构。 定义 在变压器架构的上下文中MoE专家混合指的是一种在其层内包含多个专门子模型的模型这些子模型被称为“专家”。每个专家都是一个神经网络旨在更高效地处理不同类型的数据或任务。MoE模型使用一种门控机制或路由器来确定哪个专家应处理给定的输入从而使模型能够动态分配资源并专注于处理某些类型的信息。这种方法可以实现更高效的训练和推理因为它使模型在规模和复杂性上进行扩展而不会导致计算成本的同比增加。 Gemini 有多种规格包括 Ultra、Pro 和 Nano以满足从数据中心到移动设备的不同计算需求。开发者可以通过为不同模型版本提供的API来访问Gemini从而将其能力集成到应用程序中。
与其前一版本 Gemini 1.0 相比当前版本在文本、视觉和音频任务方面表现更优异正如以下截图所示 同样它在数学、科学、推理、编码以及多语言领域也展现了卓越的能力
v
请注意Gemini 1.5 Pro 在多个领域的许多基准测试中表现优于更大规模的 Gemini 1.0 Ultra。截至目前Gemini Pro 可以通过网页应用在 gemini.google.com 免费试用而 Gemini Ultra 则通过每月订阅费用的高级服务提供。此外专为移动设备定制的 Gemini Nano 可以通过 Google AI Edge SDK for Android 在兼容的安卓设备上运行。请注意截至2024年4月该SDK仍处于早期访问预览阶段您可以通过 此表单 申请参与早期访问计划。最后开发者还可以通过 Google AI Studio 提供的 REST API 访问 Gemini Pro 和 Ultra。
Claude 2
Claude 2即通过用户数据和专业知识实现宪法级大规模对齐是由 Anthropic 开发的一款LLM。这是一家由前 OpenAI 研究人员创立并专注于 AI 安全与对齐的研究公司Claude 2 于2023年7月发布。
Claude 2 是基于变压器架构的LLM通过无监督学习、RLHF 和宪法级 AICAI对互联网上的公开信息和专有数据进行训练。
CAI 是 Claude 的一个真正独特之处。事实上Anthropic 对 Claude 2 与安全原则的对齐给予了极大的关注。更具体地说Anthropic 开发了这种称为 CAI 的独特技术并在2022年12月的一篇论文《宪法级 AI来自 AI 反馈的无害性》中披露了这一技术。
CAI 旨在通过防止有害或歧视性输出、不帮助人类从事非法或不道德活动并广泛创建一个有用、诚实且无害的AI系统使模型更加安全并与人类的价值观和意图保持一致。为此它使用了一组原则来指导模型的行为和输出而不仅仅依赖于人类反馈或数据。这些原则源自多种来源如《联合国人权宣言》、信任和安全最佳实践、其他AI研究实验室提出的原则、非西方视角以及实证研究。
CAI 在训练过程中分两个阶段使用这些原则
首先模型使用这些原则和一些示例对其自身的响应进行批评和修正。其次模型通过强化学习进行训练但不是使用人类反馈而是使用基于这些原则生成的AI反馈来选择更无害的输出。
下图展示了根据 CAI 技术的训练过程 Claude 2 的另一个特点是其上下文长度限制为100,000个标记。这意味着用户可以输入更长的提示例如技术文档的页面甚至一本书而不需要将其嵌入。此外与其他LLM相比该模型还可以生成更长的输出。
最后Claude 2 在处理代码时也展现了出色的能力在HumanEval基准测试中得分为71.2%。 定义 HumanEval 是用于评估LLM代码生成能力的基准测试。它包含164个由人类精心设计的Python编程问题每个问题都包括一个提示、一种解决方案和一个测试套件。这些问题涵盖了各种主题例如数据结构、算法、逻辑、数学和字符串操作。该基准测试可以用来衡量LLM输出的功能正确性、语法有效性和语义连贯性。 总体而言Claude 2 是一个非常有趣的模型也是GPT-4的强劲竞争对手值得关注。它可以通过REST API使用或者直接通过Anthropic的测试版聊天体验截至2023年8月仅限于美国和英国用户。
以下比较表展示了这三种模型之间的主要差异
模型GPT-4GeminiClaude 2公司或机构OpenAIGoogleAnthropic首次发布2023年3月2023年12月2023年7月架构基于变压器仅解码器基于变压器基于变压器尺寸和变体参数未正式公布两个上下文长度变体GPT-4 8K 标记、GPT-4 32K 标记三种尺寸从小到大分别为Nano、Pro 和 Ultra使用方式通过 OpenAI 开发者平台的 REST API通过 platform.openai.com/playground 使用 OpenAI Playground通过 Google AI Studio 的 REST API
表3.1GPT-4、PaLM 2 和 Claude 2 的比较表
除了专有模型之外现今市场上还有大量的开源LLM。在接下来的部分中我们将讨论其中的一些。
开源模型
开源模型的优势在于按照定义开发者可以完全看到并访问源代码。在LLM的上下文中这意味着以下几点
您对架构有较大的控制权这意味着您可以在项目中使用的本地版本中进行修改。这也意味着它们不会受到模型所有者对源代码进行的潜在更新的影响。您可以从头开始训练模型除了经典的微调外这一点在专有模型中也是可行的。免费使用这意味着您在使用这些LLM时不会产生费用而专有模型通常采用按使用量收费的定价方式。
为了比较开源模型在本书中我们将参考独立的Hugging Face Open LLM Leaderboard您可以在此处找到这是一个旨在评估和比较LLM在各种自然语言理解NLU任务上表现的项目。该项目托管在Hugging Face Spaces上这是一个创建和共享机器学习应用程序的平台。
Open LLM Leaderboard 使用了四个主要的评估基准我们在第一章的“模型评估”部分中讨论过
AI2推理挑战ARC 小学科学问题和复杂的NLU任务。HellaSwag常识推理。MMLU涵盖数学、计算机科学和法律等多个领域的任务。TruthfulQA评估模型在生成答案时的真实性。
尽管这些仅仅是LLM基准测试中的一小部分但我们将使用这个排行榜作为参考评估框架因为它已被广泛采用。
LLaMA-2
大型语言模型Meta AI 2LLaMA-2是由Meta开发的一系列新模型于2023年7月18日向公众开放并且开源和免费其第一个版本最初仅限于研究人员使用。 它是一个自回归模型采用了优化的仅解码器的变压器架构。 定义 在变压器的上下文中自回归的概念指的是模型在预测序列中的下一个标记时是基于所有之前的标记进行的。这是通过在输入中屏蔽未来的标记来实现的以使模型只能关注过去的标记。例如如果输入序列是“The sky is blue”模型首先会预测“The”然后是“sky”接着是“is”最后是“blue”并在每次预测后使用屏蔽来隐藏随后的标记。 LLaMA-2 模型有三种规模70亿、130亿和700亿参数。所有版本均在2万亿个标记上进行了训练并具有4,092个标记的上下文长度。
此外所有模型规模都配有一个“聊天”版本称为 LLaMA-2-chat与基础模型 LLaMA-2 相比这个版本在通用对话场景中更加多功能。 注意 在LLM的上下文中基础模型和“聊天”或助手模型之间的区别主要体现在它们的训练过程和预期用途上 基础模型这些模型在大量文本数据通常来源于互联网上进行训练主要功能是在给定上下文中预测下一个词这使得它们在理解和生成语言方面表现出色。然而它们可能并不总是精确或专注于特定指令。助手模型这些模型最初是基础LLM但经过进一步微调使用包含指令的输入输出对以及模型尝试遵循这些指令的过程进行训练。它们通常使用RLHF基于人类反馈的强化学习来优化模型使其在帮助性、诚实性和无害性方面表现得更好。因此这些模型不太可能生成有问题的文本更适合于实际应用如聊天机器人和内容生成。例如助手模型GPT-3.5 TurboChatGPT背后的模型是完成模型GPT-3的微调版本。 总而言之虽然基础模型提供了对语言的广泛理解但助手模型则优化为能够更好地遵循指令并提供更准确且与上下文相关的响应。 LLaMA-2-chat 的开发过程中采用了两个主要步骤的微调过程
监督微调这一步涉及在公开可用的指令数据集和超过100万个人工注释上对模型进行微调以使其在对话场景中更加有用和安全。微调过程中使用了一系列精心选择的提示来引导模型的输出并使用了鼓励多样性和相关性的损失函数这就是为什么称之为“监督”的原因。基于人类反馈的强化学习RLHF 正如我们在介绍GPT-4时所见RLHF是一种利用人类反馈作为评估LLM生成输出的标准然后使用该反馈进一步优化模型的技术。
以下是LLaMA训练过程的示意图 要访问该模型您需要在Meta的网站上提交请求。一旦提交请求您将收到一封包含GitHub仓库的电子邮件在那里您可以下载以下资源
模型代码模型权重README用户指南负责任使用指南许可证可接受使用政策模型卡
Falcon LLM
Falcon LLM 是一种LLM的新趋势的代表旨在构建较轻的模型具有更少的参数而更注重训练数据集的质量。确实像GPT-4这样拥有数万亿参数的复杂模型在训练阶段和推理阶段都极为沉重。这意味着需要高昂的计算能力依赖GPU和TPU以及较长的训练时间。
Falcon LLM 是阿布扎比技术创新研究所TII于2023年5月推出的开源模型。它是一个自回归、仅解码器的变压器模型在1万亿个标记上进行了训练拥有400亿参数尽管它也有一个更轻量的版本只有70亿参数。与我们在LLaMA中看到的类似Falcon LLM 也有一个微调变体称为“Instruct”专门用于更好地遵循用户指令。 定义 Instruct模型专门用于执行短形式的指令任务。指令任务是指模型需要执行自然语言命令或查询例如“写一首关于猫的俳句”或“告诉我巴黎的天气”。Instruct微调模型是在大量指令及其对应输出的数据集上进行训练的例如斯坦福的Alpaca数据集。 根据Open LLM排行榜自推出以来Falcon LLM一直位居全球前列仅次于某些版本的LLaMA。那么问题可能是一个只有“仅仅”400亿参数的模型为何表现如此出色事实上答案在于数据集的质量。Falcon是使用专门的工具开发的包含一个独特的数据管道能够从网络数据中提取有价值的内容。该管道旨在通过广泛的过滤和去重技术提取高质量的内容。最终生成的数据集名为RefinedWeb由TII根据Apache-2.0许可证发布可在 此处 找到。
通过将优质数据与这些优化相结合Falcon在分别使用GPT-3和PaLM-62B约75%和80%的训练计算预算的情况下取得了卓越的性能。
Mistral
我们将要讨论的第三个也是最后一个开源模型系列是Mistral由Mistral AI公司开发。该公司由一支AI科学家团队于2023年4月创立团队成员此前曾在Meta Platforms和Google DeepMind工作。该公司总部位于法国通过筹集大量资金并发布开源LLM迅速赢得了声誉强调了AI开发中透明度和可访问性的重要性。
Mistral模型特别是Mistral-7B-v0.1是一个仅解码器的变压器模型拥有73亿参数专为生成式文本任务设计。它因其创新的架构选择如分组查询注意力GQA和滑动窗口注意力SWA而闻名这些选择使其在基准测试中表现优于其他模型。 定义 GQA分组查询注意力和SWA滑动窗口注意力是旨在提高LLM效率和性能的机制。 GQA 是一种技术它通过将注意力机制的查询头分组来实现比标准全注意力机制更快的推理时间。每个组共享一个键头和一个值头从而减少了计算的复杂性。SWA 用于高效处理较长的文本序列。它扩展了模型的注意力范围超越了固定窗口大小使每一层都可以引用前一层的多个位置。这意味着在一个层中的某个位置的隐藏状态可以关注前一层中特定范围内的隐藏状态从而使模型能够访问更远距离的标记并以较低的推理成本处理不同长度的序列。 该模型还提供了一个为通用功能而微调的变体称为Mistral-7B-instruct。在MT-Bench一个使用LLM作为评估者的评估框架上这个变体超越了市场上所有其他70亿参数的LLM截至2024年4月。 与许多其他开源模型一样Mistral可以通过Hugging Face Hub获取和下载。 注意 2024年2月Mistral AI 与微软达成了一项为期多年的合作伙伴关系旨在加速人工智能创新。此次合作将利用微软的Azure AI超级计算基础设施来支持Mistral AI的LLM的开发和部署。Mistral AI的模型包括他们的高级模型Mistral Large将通过Azure AI Studio和Azure Machine Learning模型目录提供给客户。该合作伙伴关系旨在扩展Mistral AI在全球市场的影响力并促进持续的研究合作。 以下比较表列出了这三种模型之间的主要区别
模型LlaMAFalcon LLMMistral公司或机构Meta技术创新研究所TIIMistral AI首次发布2023年7月2023年5月2023年9月架构自回归变压器仅解码器自回归变压器仅解码器变压器仅解码器尺寸和变体三种尺寸7B、13B 和 70B 以及微调版本chat两种尺寸7B 和 40B以及微调版本instruct7B 尺寸 以及微调版本instruct许可证自定义商业许可证详见ai.meta.com/resources/m…商业 Apache 2.0 许可证商业 Apache 2.0 许可证使用方式提交请求表单至ai.meta.com/resources/m… 并下载GitHub仓库可通过Hugging Face Hub 下载或使用推理API/端点可通过Hugging Face Hub 下载或使用推理API/端点也可通过Azure AI Studio 使用
超越语言模型
到目前为止我们只讨论了特定于语言的基础模型因为它们是本书的重点。然而在AI驱动的应用程序中值得一提的是还有其他可以处理不同于文本的数据的基础模型这些模型也可以进行嵌入和编排。
以下是当前市场上一些大型基础模型LFM的示例
Whisper这是由OpenAI开发的一种通用语音识别模型可以将多种语言的语音转录和翻译为文本。它在一个包含多样化音频的大型数据集上进行了训练并且是一个多任务模型能够执行多语言语音识别、语音翻译、口语语言识别和语音活动检测。Midjourney由同名独立研究实验室开发Midjourney基于序列到序列的变压器模型该模型接受文本提示并输出与提示相匹配的四幅图像。Midjourney被设计为艺术家和创意专业人士的工具可用于快速原型设计、灵感激发或实验。DALL-E与前者类似DALL-E由OpenAI开发使用经过训练的GPT-3的120亿参数版本根据自然语言描述生成图像训练数据集包含文本-图像对。
我们的理念是可以在应用程序中组合和编排多个LFM以实现非凡的效果。例如假设我们想撰写一篇关于与一位年轻厨师采访的评论并将其发布在Instagram上。涉及的模型可能如下
Whisper 将采访音频转换为文本。一个带有网络插件的LLM如Falcon-7B-instruct将从互联网上搜索该年轻厨师的名字并获取其传记。另一个LLM如LlaMA将处理文本并生成具有Instagram风格的评论。我们还可以要求同一模型生成一个提示该提示将指导下一个模型根据内容生成图片。DALL-E 将根据LLM生成的提示生成图像。然后我们为我们的LFM流程提供一个Instagram插件以便应用程序能够将包括插图在内的完整评论发布到我们的个人资料中。
最后有一些新兴的LFM旨在实现多模态这意味着它们可以使用一种架构处理多种数据格式。例如GPT-4本身就是一个多模态模型。
以下截图展示了OpenAI在早期实验中使用GPT-4视觉功能的一个示例展示了它对图像中有趣方面的理解 以下截图展示了GPT-4早期版本的另一个示例展示了它如何理解并详细解释图表 以下示例展示了GPT-4早期版本如何理解并解决复杂的数学问题同时提供相应的解答理由 GPT-4 是一个大型多模态模型LMM的示例它代表了我们可能在未来几年内见证的趋势。
选择合适LLM的决策框架
在前面的段落中我们讨论了一些当前市场上最具前景的LLM。现在的问题是我应该在我的应用程序中使用哪一个实际上这个问题并没有一个简单的答案。
考虑因素
在为您的应用程序选择LLM时有许多因素需要考虑。这些因素需要在两个场景中加以权衡专有LLM和开源LLM。以下是选择LLM时可能需要考虑的一些因素和权衡 规模和性能我们看到更复杂的模型即具有大量参数的模型往往表现更好尤其是在参数化知识和泛化能力方面。然而模型越大处理输入和生成输出所需的计算和内存就越多这可能导致更高的延迟以及更高的成本。 成本和托管策略在我们的应用程序中集成LLM时有两种类型的成本需要考虑 模型使用成本这指的是使用模型所需支付的费用。专有模型如GPT-4或Claude 2通常需要支付费用费用通常与处理的标记数量成正比。另一方面开源模型如LlaMA或Falcon LLM可以免费使用。模型托管成本这指的是您的托管策略。通常专有模型托管在私有或公有的超级计算平台上您可以通过REST API消费它们而不必担心底层基础设施例如GPT-4托管在微软Azure云上的超级计算机中。对于开源模型我们通常需要提供自己的基础设施因为这些模型可以本地下载。当然模型越大所需的计算能力就越强。 注意 在使用开源模型时另一个选择是使用Hugging Face的推理API。免费版本允许您在共享的基础设施上以有限的速率测试和评估所有可用的LLM。对于生产用例Hugging Face还提供推理端点使您可以轻松地在专用和完全托管的基础设施上部署您的LLM并可配置区域、计算能力和安全级别等参数以满足延迟、吞吐量和合规性方面的约束条件。推理端点的定价可在 此处 查阅。 定制化在决定采用哪种模型之前这可能是您需要评估的要求。事实上并非所有模型在定制化方面都具有相同的灵活性。当我们谈论定制化时指的是两种活动 微调这是稍微调整LLM参数以更好地适应特定领域的过程。所有开源模型都可以进行微调。对于专有模型并非所有LLM都可以微调例如OpenAI的GPT-3.5可以进行微调而GPT-4-0613的微调过程仍处于实验阶段截至2023年12月需要向OpenAI提交请求方可访问。因此重要的是要了解您的应用程序是否需要微调并相应地做出决定。从头训练如果您希望LLM在特定领域知识方面非常专业您可能希望从头开始重新训练模型。要从头开始训练LLM而无需重新设计架构您可以下载开源LLM并在自定义数据集上重新训练它们。当然这意味着我们需要访问源代码而在使用专有LLM时这是不可能的。 特定领域的能力我们看到评估LLM性能的最流行方式是跨领域平均不同的基准。然而也有一些基准测试专注于特定的能力如果MMLU衡量的是LLM的广泛文化和常识推理能力TruthfulQA则更关注LLM的对齐性而HumanEval则专门针对LLM的编码能力。因此如果您有一个特定的用例您可能希望选择在某个特定基准测试中表现优异的模型而不是在所有基准测试中平均表现优异的模型。也就是说如果您需要出色的编码能力您可能会选择Claude 2如果您关注分析推理PaLM 2可能是您的最佳选择。另一方面如果您需要一个涵盖所有这些能力的模型GPT-4可能是您的正确选择。
选择特定领域的模型也是降低模型复杂性的一种方式。如果您只需要在特定用例中使用模型使用一个相对较小的模型例如LlaMA-7B-instruct可能就足够了这也带来了成本和性能方面的优势。 注意 如果您正在寻找极其特定的LLM有许多模型是基于特定领域的技术文档进行训练的。例如2023年初斯坦福基础模型研究中心CRFM和MosaicML发布了BioMedLM这是一种基于解码器的变压器模型拥有27亿参数专门针对生物医学摘要和论文进行训练。另一个例子是BloombergGPT这是一个专门针对金融领域的LLM拥有500亿参数由Bloomberg开发并基于Bloomberg的庞大数据源上的3630亿标记数据集进行训练或许是迄今为止最大的特定领域数据集并补充了3450亿个来自通用数据集的标记。 为了使这个决策框架更具实用性让我们考虑以下关于TechGen公司的虚拟案例研究。
案例研究
TechGen Solutions是一家领先的AI驱动分析服务提供商他们需要在两个高级语言模型之间做出选择以用于下一代客户交互系统GPT-4和LLaMa-2。他们需要一个强大的语言模型来处理各种客户查询、提供准确的技术信息并与其专有软件集成。以下是他们的选项
GPT-4由OpenAI开发GPT-4以其庞大的参数数量以及处理文本和图像输入的能力而闻名。LLaMa-2由Meta AI开发LLaMa-2是一个开源模型以其可访问性和在较小数据集上的性能表现受到赞誉。
在做出决策时他们考虑了以下因素
性能TechGen评估了模型的性能尤其是在生成技术内容和代码方面GPT-4表现出更高的准确性。集成与TechGen系统的集成难易程度至关重要由于GPT-4被广泛采用可能提供更无缝的兼容性。成本虽然LLaMa-2在某些条件下可免费用于商业用途但GPT-4是收费的这需要TechGen在决策时考虑到这一因素。未来保障TechGen考虑了每个模型的长期可行性包括更新和改进的潜力。
基于这些考虑TechGen选择了GPT-4其在生成复杂技术响应和多语言能力方面的优越性能与他们的国际扩展计划一致。决策也受到GPT-4图像处理功能的影响TechGen预计随着他们在客户服务中引入更多的多媒体内容这一功能将变得越来越重要。
TechGen选择GPT-4而非LLaMa-2主要是因为他们需要一个高性能、多功能的语言模型以满足其不断增长的全球业务和多样化的客户需求。虽然LLaMa-2的开源特性和成本效益很有吸引力但GPT-4的先进功能和未来保障特性为TechGen的雄心勃勃的目标提供了更有说服力的理由。
需要注意的是这些决策因素并不是决定在应用程序中嵌入哪个模型的详尽指南。然而在设置应用程序流程时这些都是有用的反思元素帮助您确定需求并筛选出更适合您目标的LLM。
总结
本章介绍了市场上一些最具前景的LLM。首先区分了专有模型和开源模型并探讨了它们各自的优缺点。随后深入探讨了GPT-4、PaLM-2、Claude 2、LLaMa-2、Falcon LLM和MPT的架构和技术特性并增加了一节介绍一些LMMs。最后提供了一个简单的框架帮助开发者在构建AI驱动的应用程序时决定选择哪种LLM。鉴于您所在行业的具体情况这对于从应用程序中获得最大影响至关重要。
从下一章开始我们将着手在应用程序中实际操作LLM。
如何系统的去学习大模型LLM
大模型时代火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业”“谁的饭碗又将不保了”等问题热议不断。
不如成为「掌握AI工具的技术人」毕竟AI时代谁先尝试谁就能占得先机
但是LLM相关的内容很多现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学学习成本和门槛很高
针对所有自学遇到困难的同学们我帮大家系统梳理大模型学习脉络将这份 LLM大模型资料 分享出来包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 有需要的小伙伴可以 扫描下方二维码领取↓↓↓ CSDN大礼包全网最全《LLM大模型入门进阶学习资源包》免费分享安全链接放心点击
- 上一篇: 深圳网站建设骏域网站建设法学院网站建设建议
- 下一篇: 深圳网站建设联雅网络dw做网站一般需要多大尺寸
相关文章
-
深圳网站建设骏域网站建设法学院网站建设建议
深圳网站建设骏域网站建设法学院网站建设建议
- 技术栈
- 2026年04月20日
-
深圳网站建设黄浦网络上海市2022进博会
深圳网站建设黄浦网络上海市2022进博会
- 技术栈
- 2026年04月20日
-
深圳网站建设公司怎么样网络营销方式和工具
深圳网站建设公司怎么样网络营销方式和工具
- 技术栈
- 2026年04月20日
-
深圳网站建设联雅网络dw做网站一般需要多大尺寸
深圳网站建设联雅网络dw做网站一般需要多大尺寸
- 技术栈
- 2026年04月20日
-
深圳网站建设民治大道冀州网站建设代理
深圳网站建设民治大道冀州网站建设代理
- 技术栈
- 2026年04月20日
-
深圳网站建设模板小程序注册页面
深圳网站建设模板小程序注册页面
- 技术栈
- 2026年04月20日
