网站404页面制作方法秦皇岛网站制作的流程

当前位置: 首页 > news >正文

网站404页面制作方法,秦皇岛网站制作的流程,网站维护托管公司,网站开发设计图片1st author: ‪Chengpeng Li‬ - ‪Google 学术搜索‬ paper: [2503.04625] START: Self-taught Reasoner with Tools code: 暂未公布 5. 总结 (结果先行) 大型语言推理模型#xff08;Large Reasoning Models, LRMs#xff09;在模拟人类复杂推理方面取得了显著进展…1st author: ‪Chengpeng Li‬ - ‪Google 学术搜索‬ paper: [2503.04625] START: Self-taught Reasoner with Tools code: 暂未公布 5. 总结 (结果先行) 大型语言推理模型Large Reasoning Models, LRMs在模拟人类复杂推理方面取得了显著进展特别是通过长链思考Long Chain-of-Thought, CoT展现出分解问题、多策略探索等类人认知行为。然而这些模型单纯依赖内部“默算”的机制在面对复杂计算、实时信息获取或精确验证时容易产生幻觉hallucinations和计算错误限制了其在关键任务上的可靠性。 START模型贡献在于 证明了通过“提示”可以低成本、无须标注地激发LLM的工具使用潜能 (Hint-infer)。设计了一套有效的自学习框架 (Hint-RFT)能够将这种潜能转化为模型稳定、自主的能力。 Hint-infer的巧妙之处在于它利用了LLM已有的潜在能力通过极低的成本启动了工具学习的正反馈循环。这种“提示-推理-微调”的自学习范式对于未来构建更强大、更可靠的AI系统具有重要的借鉴意义。 从更广阔的视角看这项工作对于AI Agent的发展具有重要意义。START所展示的“引导-探索-内化”的学习模式可能为训练更自主、更全能的AI Agent提供了一条可行的途径。 后续值得探索的方向包括 更丰富的工具集将Hint-infer和Hint-RFT扩展到Python解释器之外的更多工具如搜索引擎、知识库API、物理模拟器等。动态提示生成当前提示是人工设计的未来或许可以探索让模型自身学习生成最有效的“自我提示”来调用工具。工具选择与组合当面临多种可用工具时模型如何学习选择最优工具或工具组合来解决问题。

  1. 思想 START的核心思想在于如何让一个预训练的LRM能够 自我教会 在其长链思考过程中适时且有效地调用外部工具本文特指Python解释器。研究者们意识到直接通过指令或少量示例few-shot prompting来引导现有LRM在长链推理中稳定调用工具非常困难。这可能是因为模型在预训练和针对CoT的微调阶段主要被“教导”去解决问题本身而非学习何时以及如何求助于外部工具。 START的巧妙之处在于它提出了一种 “提示-推断-精炼” 的自学习框架旨在唤醒并强化模型利用工具的能力。
  2. 方法 START的自学习框架包含两个技术提示推断与提示拒绝采样微调 提示推断 (Hint-infer) 机制在LRM进行推理时于特定位置例如在“Alternatively”、“Wait”等表示思考转换的连接词后或在长CoT结束前注入人工设计的、与上下文相关的“提示” (hints)例如 “等等这里用Python算一下也许更好” (Wait, maybe using Python here is a good idea)。效果这类提示无需任何示例数据 (demonstration data) 即可有效激发LRM调用外部工具的潜能。对于代码生成任务提示会更具体包含代码模板引导模型对测试用例进行本地验证。扩展Hint-infer本身也可以作为一种测试时增强test-time scaling方法通过在推理末端多次迭代插入提示给予模型更多“思考时间”和调用工具的机会来提升性能。 提示拒绝采样微调 (Hint Rejection Sampling Fine-Tuning, Hint-RFT) 这是一个两阶段的自学习与微调过程旨在将Hint-infer诱导出的工具使用行为内化为模型的自身能力。 阶段一引导工具感知 (Bootstrapping START-0) 数据合成使用基础LRM如QwQ-32B-Preview配合Hint-infer处理一批训练数据包含数学、代码等问题。筛选与构建 D s e e d D{seed} Dseed​收集那些模型仅在Hint-infer下才解决并且包含了有效工具调用Python代码执行的推理轨迹。这些轨迹经过评分、过滤和必要的修改如统一Python标识符、移除占位符形成初始的工具使用示范数据集 D s e e d D{seed} Dseed​。初步微调在 D s e e d D{seed} Dseed​ 上微调基础LRM得到START-0模型。此时START-0已经具备了初步的、自我驱动的工具使用意识。 阶段二强化工具熟练度 (Developing START) 数据增强与提纯使用START-0模型在全部训练数据上进行带有拒绝采样的推理生成更丰富、更多样化的长链工具调用轨迹。对这些轨迹进行评分、过滤重复模式、人工修正不合理内容保留每个问题至多一个高质量的回答构成更优的工具使用数据集 D S T A R T D{START} DSTART​。最终微调在 D S T A R T D{START} DSTART​ 上再次微调基础LRM论文中表述为QwQ-32B-Preview但逻辑上也可以是START-0得到最终的START模型该模型能够更熟练和自主地在长链思考中集成工具使用。 符号解释 D s e e d D{seed} Dseed​通过Hint-infer生成的、包含成功工具调用的初始高质量轨迹集合。 D S T A R T D{START} DSTART​通过START-0模型配合拒绝采样生成的、质量更高、多样性更好的工具调用轨迹集合。 QwQ-32B-Preview论文中使用的基础大型语言模型。 START-0经过 D s e e d D{seed} Dseed​ 初步微调后具备基本工具使用能力的模型。 START经过 D S T A R T D_{START} DSTART​ 再次微调后具备更强工具使用能力的最终模型。
  3. 优势 显著提升复杂推理能力通过将精确计算、代码执行与验证等任务外包给Python解释器有效克服了LRM在这些方面的固有弱点减少了幻觉。高效的自学习机制Hint-infer的引入避免了大规模人工标注工具使用数据的需求通过“提示”巧妙地诱导出模型的潜在能力并结合RFT进行强化实现了低成本的自我进化。保留并增强长CoT的优点START并非简单地用工具替代思考而是在长CoT的框架内有机地集成工具使得模型既能进行宏观的策略规划又能借助工具处理微观的复杂执行。开放性与可复现性论文基于开源模型进行微调并详细描述了方法为社区提供了借鉴。
  4. 实验 START在一系列具有挑战性的基准测试上展现了其有效性 测试平台 GPQA博士级别的科学问答。MATH (AMC23, AIME24, AIME25)竞赛级别的数学问题。LiveCodeBench竞赛级别的代码生成问题。 实验结果 START显著优于其基座模型QwQ-32B-Preview。例如在AIME25上从基座的40.0%提升至47.1%在LiveCodeBench上从41.4%提升至47.3%。与业界顶尖模型相比START的性能与R1-Distill-Qwen-32B基于671B参数模型蒸馏和闭源的o1-Preview可能是指GPT系列模型的某个版本相当或有所超越。 消融实验与分析 Hint-infer的有效性即便仅仅在测试时对QwQ-32B-Preview使用Hint-infer也能带来一定的性能提升证明了提示的即时引导作用。Long CoT vs. Long TIR通过对比仅用更多长CoT数据微调的模型QwQ-RFT与START证明了工具调用能力Long TIR是性能提升的核心驱动因素而非仅仅是训练数据量的增加。测试时提示对START的影响对已经微调好的START模型在测试时再使用Hint-infer性能提升不如对基座模型明显。这间接说明START已经较好地内化了工具使用策略外部提示的边际效益降低。