首页 - 技术栈

中国核工业集团有限公司seo排名优化培训

作者: 五速梦信息网
时间: 2026年06月19日 03:50

当前位置：首页 > news >正文

中国核工业集团有限公司,seo排名优化培训,直播软件视频软件,移动互联网开发试卷每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗#xff1f;订阅我们的简报#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会#xff0c;成为AI领… 每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗订阅我们的简报深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同从行业内部的深度分析和实用指南中受益。不要错过这个机会成为AI领域的领跑者。点击订阅与未来同行订阅https://rengongzhineng.io/ Ai2一家非营利性研究机构发布了一系列名为 Molmo 的开源多模态语言模型据称其性能与来自 OpenAI、Google 和 Anthropic 的顶级专有模型相当。https://molmo.allenai.org/ 该组织声称其最大的 Molmo 模型具有 720 亿个参数在测试中胜过了 OpenAI 的 GPT-4o估计具有超过 1 万亿个参数这些测试衡量了理解图像、图表和文档等方面的能力。与此同时Ai2 表示一个较小的 Molmo 模型具有 70 亿个参数在性能上接近 OpenAI 的最先进模型它将这一成就归功于更高效的数据收集和训练方法。 Ai2 的首席执行官 Ali Farhadi 表示Molmo 表明开源 AI 开发现在与封闭、专有模型不相上下。开源模型具有显著优势因为它们的开放性意味着其他人可以在它们的基础上构建应用程序。Molmo 演示可在[链接]上找到开发者可以在 Hugging Face 网站上对其进行试验。最强大的 Molmo 模型的某些元素仍然受到保护。其他大型多模态语言模型是在包含数十亿个从互联网上收集的图像和文本样本的庞大数据集上训练的它们可以包含数万亿个参数。这个过程给训练数据带来了大量噪声以及随之而来的幻觉Ai2 的高级研究总监 Ani Kembhavi 说。相比之下Ai2 的 Molmo 模型是在一个明显更小且经过精心挑选的数据集上训练的该数据集仅包含 60 万张图像并且它们具有 10 亿到 720 亿个参数。Kembhavi 说专注于高质量数据而不是不加选择地抓取数据导致在更少的资源下实现了良好的性能。研究人员长期以来对什么是开源 AI 存在分歧。一个有影响力的群体提出了一个答案。 Ai2 通过让人类注释者对模型训练数据集中的图像进行极其详细的多页文本描述来实现这一点。他们要求注释者谈论他们所看到的而不是打字。然后他们使用 AI 技术将他们的语音转换为数据这使得训练过程更快同时减少了所需的计算能力。 Hugging Face 的机器学习和社会负责人 Yacine Jernite未参与这项研究表示这些技术如果我们想要有意义地管理用于 AI 开发的数据可能会非常有用。斯坦福基础模型研究中心主任 Percy Liang也未参与这项研究表示“通常在更高质量的数据上训练可以降低计算成本。” 另一个令人印象深刻的能力是该模型可以“指向”事物这意味着它可以通过识别回答查询的像素来分析图像的元素。在演示中Ai2 研究人员拍摄了他们办公室外当地西雅图码头的一张照片并要求模型识别图像的各种元素例如躺椅。该模型成功地描述了图像的内容计算了躺椅的数量并准确地指向了图像中的其他事物因为研究人员要求。然而它并不完美。例如它无法找到特定的停车场。 Farhadi 说其他先进的 AI 模型擅长描述场景和图像。但是当你想要构建能够与世界交互的更复杂的网络代理时这还不够例如预订航班。他表示指向允许人们与用户界面进行交互。 Jernite 表示Ai2 的开放程度比我们从其他 AI 公司看到的更高。虽然 Molmo 是一个好的开始但他表示它的真正意义在于开发者在其基础上构建的应用程序以及人们改进它的方式。 Farhadi 同意。在过去几年中AI 公司吸引了巨大的、数万亿美元的投资。但在过去几个月里投资者对这种投资是否会带来回报表示怀疑。他认为庞大而昂贵的专有模型无法做到这一点但开源模型可以。他说这项工作表明开源 AI 也可以以一种高效利用资金和时间的方式构建。 “我们很高兴能够帮助他人并看到其他人会用它来构建什么”Farhadi 说。一直以来大家普遍认为只有像谷歌、OpenAI、Anthropic这些拥有无尽资金和数百名顶级研究人员的公司才能打造出最先进的基础模型。然而就连他们自己也承认所谓的技术“护城河”并不存在。今天Ai2Allen Institute for AI通过发布Molmo这一多模态AI模型再次证明了这一点。Molmo不仅能媲美这些巨头的产品而且体积小、完全免费真正实现了开源。需要明确的是Molmo多模态开放语言模型是一种视觉理解引擎而非像ChatGPT那样的全功能聊天机器人。它没有API接口不支持企业集成也不会自动搜索互联网内容。更准确地说Molmo是那些AI模型中负责“看图说话”的部分它能识别图像、理解其中的内容并回答相关问题。 Molmo分为72B、7B和1B参数三种版本和其他多模态模型一样它能回答关于日常情境和物品的问题。例如如何操作这台咖啡机这张照片中有多少只狗伸出舌头菜单上哪些选项是素食这些视觉理解任务多年来已经以不同成功率和延迟性展示过了。但真正让Molmo脱颖而出的不仅仅是其功能而是它实现这些功能的方式。视觉理解本身涵盖广泛的领域从数羊到猜测人的情绪状态再到总结菜单内容范围很难用简单的定量测试描述。不过Ai2的CEO Ali Farhadi在其位于西雅图的研究所演示会上解释说至少可以通过展示两种模型在能力上的相似性来证明它们的效果。 “我们今天要展示的是‘开源’等于‘闭源’‘小’等于‘大’。”他说他特别强调这里的等号代表的是‘等效性’而非‘同一性’这是个有趣的细微差别。 AI发展中的一条不变定律是“越大越好”更多的训练数据、更复杂的模型、更强大的计算力。然而模型变大终究会遇到瓶颈没有足够的数据、计算成本过高最终变得事倍功半。这时如何用更少的资源做到更多才是关键。 Farhadi解释道虽然Molmo与GPT-4、Gemini 1.5 Pro和Claude-3.5 Sonnet等模型的表现不相上下但其体积只有它们的十分之一左右。通过小型化模型Molmo实现了几乎相同的能力。他还提到虽然AI领域有很多不同的评估基准他并不太喜欢这种“数字游戏”。但为了给大家展示成果必须提供一些数据“我们最大的模型是72B参数但它在那些基准测试中表现优于GPT、Claude和Gemini。我们不确定这是否意味着Molmo真的比它们更好但至少它在同一个领域内竞争。” 如果你有兴趣挑战Molmo欢迎使用其公开演示版甚至可以在手机上测试。演示中的一个新功能是它能精准“指出”图片中的相关部分。比如问它一张照片里有几只狗它会在每只狗脸上打个点问它照片里有多少只狗伸出舌头它会在每只舌头上标注。这种具体化的识别使得Molmo可以在没有预先训练的情况下完成各种任务。最重要的是Molmo完全免费且开源体积小到可以在本地运行。不需要API、不需要订阅服务甚至不需要一台高端GPU服务器。Ai2的目标是让开发者能够轻松创建AI应用而不必依赖那些大型科技公司。 Farhadi补充道Ai2已经公开了所有相关的数据、清理方法、注释、训练代码、模型检查点和评估标准完全开放给任何人使用。他预计开发者们会马上开始使用这些资源包括那些资金雄厚的竞争对手。随着AI领域日新月异地发展各大公司正逐渐陷入价格战的漩涡纷纷将价格压到最低。既然开源模型能提供类似的能力那么这些公司提供的服务价值还能有多高呢至少Molmo证明了即使巨头的“帝王新衣”问题仍悬而未决他们的“护城河”确实已经消失了。