崇文网站开发开发一款游戏
- 作者: 五速梦信息网
- 时间: 2026年03月21日 11:32
当前位置: 首页 > news >正文
崇文网站开发,开发一款游戏,建域名做网站,太原哪个网站制作最好用上一章我们探索了如何评估 LLM 模型在 有明确正确答案 的情况下的性能#xff0c;并且我们学会了编写一个函数来验证 LLM 是否正确地进行了分类列出产品。 在使用LLM生成文本的场景下#xff0c;评估其回答准确率可以是一个挑战。由于LLM是基于大规模的训练数据进行训练的并且我们学会了编写一个函数来验证 LLM 是否正确地进行了分类列出产品。 在使用LLM生成文本的场景下评估其回答准确率可以是一个挑战。由于LLM是基于大规模的训练数据进行训练的因此无法像传统的分类问题那样使用准确率来评估其性能。 一、运行问答系统获得一个复杂回答 我们首先运行在之前章节搭建的问答系统来获得一个复杂的、不存在一个简单正确答案的回答 import utils_zh 注意限于模型对中文理解能力较弱中文 Prompt 可能会随机出现不成功可以多次运行也非常欢迎同学探究更稳定的中文 Prompt# 用户消息 customer_msg f 告诉我有关 the smartx pro phone 和 the fotosnap camera, the dslr one 的信息。 另外你们这有什么 TVs # 从问题中抽取商品名 products_by_category utils_zh.get_products_from_query(customer_msg)
将商品名转化为列表
category_and_product_list utils_zh.read_string_to_list(products_by_category)
查找商品对应的信息
product_info utils_zh.get_mentioned_product_info(category_and_product_list)
由信息生成回答
assistant_answer utils_zh.answer_user_msg(user_msgcustomer_msg, product_infoproduct_info)print(assistant_answer) 关于SmartX Pro手机和FotoSnap DSLR相机的信息1. SmartX Pro手机型号SX-PP10是一款功能强大的智能手机拥有6.1英寸显示屏、128GB存储空间、12MP双摄像头和5G网络支持。价格为899.99美元保修期为1年。2. FotoSnap DSLR相机型号FS-DSLR200是一款多功能的单反相机拥有24.2MP传感器、1080p视频拍摄、3英寸液晶屏和可更换镜头。价格为599.99美元保修期为1年。关于电视的信息我们有以下电视可供选择
- CineView 4K电视型号CV-4K55- 55英寸显示屏4K分辨率支持HDR和智能电视功能。价格为599.99美元保修期为2年。
- CineView 8K电视型号CV-8K65- 65英寸显示屏8K分辨率支持HDR和智能电视功能。价格为2999.99美元保修期为2年。
- CineView OLED电视型号CV-OLED55- 55英寸OLED显示屏4K分辨率支持HDR和智能电视功能。价格为1499.99美元保修期为2年。请问您对以上产品有任何特别的要求或其他问题吗二、使用 GPT 评估回答是否正确
我们希望您能从中学到一个设计模式即当您可以指定一个评估 LLM 输出的标准列表时您实际上可以使用另一个 API 调用来评估您的第一个 LLM 输出。
from tool import get_completion_from_messages# 问题、上下文
cust_prod_info {customer_msg: customer_msg,context: product_info
}def eval_with_rubric(test_set, assistant_answer):使用 GPT API 评估生成的回答参数test_set: 测试集assistant_answer: 助手的回复cust_msg test_set[customer_msg]context test_set[context]completion assistant_answer# 人设system_message \你是一位助理通过查看客户服务代理使用的上下文来评估客户服务代理回答用户问题的情况。# 具体指令user_message f\你正在根据代理使用的上下文评估对问题的提交答案。以下是数据[开始]*********[用户问题]: {cust_msg}******[使用的上下文]: {context}******[客户代理的回答]: {completion}*********[结束]请将提交的答案的事实内容与上下文进行比较忽略样式、语法或标点符号上的差异。回答以下问题助手的回应是否只基于所提供的上下文是或否回答中是否包含上下文中未提供的信息是或否回应与上下文之间是否存在任何不一致之处是或否计算用户提出了多少个问题。输出一个数字对于用户提出的每个问题是否有相应的回答问题1是或否问题2是或否…问题N是或否在提出的问题数量中有多少个问题在回答中得到了回应输出一个数字
messages [{role: system, content: system_message},{role: user, content: user_message}]response get_completion_from_messages(messages)return responseevaluation_output eval_with_rubric(cust_prod_info, assistant_answer)
print(evaluation_output)助手的回应只基于所提供的上下文。是
回答中不包含上下文中未提供的信息。是
回应与上下文之间不存在任何不一致之处。是
用户提出了2个问题。
对于用户提出的每个问题都有相应的回答。
问题1是
问题2是
在提出的问题数量中有2个问题在回答中得到了回应。三、评估生成回答与标准回答的差距
在经典的自然语言处理技术中有一些传统的度量标准用于衡量 LLM 输出与人类专家编写的输出的相似度。例如BLUE 分数可用于衡量两段文本的相似程度。 实际上有一种更好的方法即使用 Prompt。您可以指定 Prompt使用 Prompt 来比较由 LLM 自动生成的客户服务代理响应与人工理想响应的匹配程度。
基于中文Prompt的验证集
test_set_ideal {customer_msg:
告诉我有关 the Smartx Pro 手机 和 FotoSnap DSLR相机, the dslr one 的信息。\n另外你们这有什么电视 ,ideal_answer:
SmartX Pro手机是一款功能强大的智能手机拥有6.1英寸显示屏、128GB存储空间、12MP双摄像头和5G网络支持。价格为899.99美元保修期为1年。 FotoSnap DSLR相机是一款多功能的单反相机拥有24.2MP传感器、1080p视频拍摄、3英寸液晶屏和可更换镜头。价格为599.99美元保修期为1年。我们有以下电视可供选择 - CineView 4K电视型号CV-4K55- 55英寸显示屏4K分辨率支持HDR和智能电视功能。价格为599.99美元保修期为2年。
- CineView 8K电视型号CV-8K65- 65英寸显示屏8K分辨率支持HDR和智能电视功能。价格为2999.99美元保修期为2年。
- CineView OLED电视型号CV-OLED55- 55英寸OLED显示屏4K分辨率支持HDR和智能电视功能。价格为1499.99美元保修期为2年。 }我们首先在上文中定义了一个验证集其包括一个用户指令与一个标准回答。 接着我们可以实现一个评估函数该函数利用 LLM 的理解能力要求 LLM 评估生成回答与标准回答是否一致。 def eval_vs_ideal(test_set, assistant_answer):评估回复是否与理想答案匹配参数test_set: 测试集assistant_answer: 助手的回复cust_msg test_set[customer_msg]ideal test_set[ideal_answer]completion assistant_answersystem_message \您是一位助理通过将客户服务代理的回答与理想专家回答进行比较评估客户服务代理对用户问题的回答质量。请输出一个单独的字母A 、B、C、D、E不要包含其他内容。 user_message f\您正在比较一个给定问题的提交答案和专家答案。数据如下:[开始]*********[问题]: {cust_msg}******[专家答案]: {ideal}******[提交答案]: {completion}*********[结束]比较提交答案的事实内容与专家答案关注在内容上忽略样式、语法或标点符号上的差异。你的关注核心应该是答案的内容是否正确内容的细微差异是可以接受的。提交的答案可能是专家答案的子集、超集或者与之冲突。确定适用的情况并通过选择以下选项之一回答问题A提交的答案是专家答案的子集并且与之完全一致。B提交的答案是专家答案的超集并且与之完全一致。C提交的答案包含与专家答案完全相同的细节。D提交的答案与专家答案存在分歧。E答案存在差异但从事实的角度来看这些差异并不重要。选项ABCDE messages [{role: system, content: system_message},{role: user, content: user_message}]response get_completion_from_messages(messages)return response这个评分标准来自于 OpenAI 开源评估框架这是一个非常棒的框架其中包含了许多评估方法既有 OpenAI 开发人员的贡献也有更广泛的开源社区的贡献。 在这个评分标准中我们要求 LLM 针对提交答案与专家答案进行信息内容的比较并忽略其风格、语法和标点符号等方面的差异但关键是我们要求它进行比较并输出从A到E的分数具体取决于提交的答案是否是专家答案的子集、超集或完全一致这可能意味着它虚构或编造了一些额外的事实。 LLM 将选择其中最合适的描述。 LLM 生成的回答为 print(assistant_answer) 关于SmartX Pro手机和FotoSnap DSLR相机的信息1. SmartX Pro手机型号SX-PP10是一款功能强大的智能手机拥有6.1英寸显示屏、128GB存储空间、12MP双摄像头和5G网络支持。价格为899.99美元保修期为1年。2. FotoSnap DSLR相机型号FS-DSLR200是一款多功能的单反相机拥有24.2MP传感器、1080p视频拍摄、3英寸液晶屏和可更换镜头。价格为599.99美元保修期为1年。关于电视的信息我们有以下电视可供选择
- CineView 4K电视型号CV-4K55- 55英寸显示屏4K分辨率支持HDR和智能电视功能。价格为599.99美元保修期为2年。
- CineView 8K电视型号CV-8K65- 65英寸显示屏8K分辨率支持HDR和智能电视功能。价格为2999.99美元保修期为2年。
- CineView OLED电视型号CV-OLED55- 55英寸OLED显示屏4K分辨率支持HDR和智能电视功能。价格为1499.99美元保修期为2年。请问您对以上产品有任何进一步的问题或者需要了解其他产品吗eval_vs_ideal(test_set_ideal, assistant_answer)‘C’ 对于该生成回答GPT 判断生成内容与标准答案一致 assistant_answer_2 life is like a box of chocolateseval_vs_ideal(test_set_ideal, assistant_answer_2)‘D’ 对于明显异常答案GPT 判断为不一致 希望您从本章中学到两个设计模式。 即使没有专家提供的理想答案只要能制定一个评估标准就可以使用一个 LLM 来评估另一个 LLM 的输出。如果您可以提供一个专家提供的理想答案那么可以帮助您的 LLM 更好地比较特定助手输出是否与专家提供的理想答案相似。 希望这可以帮助您评估 LLM 系统的输出以便在开发期间持续监测系统的性能并使用这些工具不断评估和改进系统的性能。
- 上一篇: 赤坎网站建设公司怎样自己做网站赚钱
- 下一篇: 崇信县门户网站领导动态美工培训班费用一般多少
相关文章
-
赤坎网站建设公司怎样自己做网站赚钱
赤坎网站建设公司怎样自己做网站赚钱
- 技术栈
- 2026年03月21日
-
赤坎手机网站建设公司html怎么做网页动态背景
赤坎手机网站建设公司html怎么做网页动态背景
- 技术栈
- 2026年03月21日
-
赤峰网站建设建站公司南昌网络营销公司
赤峰网站建设建站公司南昌网络营销公司
- 技术栈
- 2026年03月21日
-
崇信县门户网站领导动态美工培训班费用一般多少
崇信县门户网站领导动态美工培训班费用一般多少
- 技术栈
- 2026年03月21日
-
崇信县门户网站领导之窗wordpress模板手机
崇信县门户网站领导之窗wordpress模板手机
- 技术栈
- 2026年03月21日
-
崇州 网站建设 有限公司wordpress建站双语
崇州 网站建设 有限公司wordpress建站双语
- 技术栈
- 2026年03月21日






