首页 AG亚娱官方网站入口 >新闻资讯 校园风采 AG亚洲游戏国际平台登录
Openai惊讶地发布O3/O4
2025-04-18

XIN Zhiyuan报告编辑:编辑部门NZYH [Xin Zhiyuan介绍] O3和O4-Mini的完全血液版本可在深夜获得,并结合了首次出现思维链中的形象,他们还将在60秒内独立地呼叫工具以独立解决复杂问题。特别是,O3刷新编程,数学和视觉推理,其计算强度是O1的十倍,该计算强度接近“天才水平”。此外,Openai还开设了编程Artifact Codex CLI的主权,该编程在一夜之间变得流行。正如预期的那样,O3的全血版本确实在这里。刚才,Openai United Chuang Greg Brockman和首席研究官员Mark Chen带领团队开始了20分钟的在线直播。目前,不仅是O3,而且是下一个Generacyon推理O4-Mini模型。他们第一次实现了“使用图像思考”,这是最受欢迎的视觉推理。像AI代理一样,两个模型独立判断并结合使用内置的ChatGpt工具的使用时间不到1分钟,以产生详细且全面的答案。扩展全文 这包括查找网页,查看上传的文件和python上的数据,深度视觉输入推理,甚至开发图像。 在基准测试中,例如CodeForces,Swe-Bench,MMMU,O3刷新SOTA,为编程,数学,科学和视觉感知设定了新的基准。 特别是,对于图像,图表和图形分析,O3特别残留,可以深入探索视觉输入细节。 对于Codeforces,Bagong Model标记了2700多分,在全球前200名竞争者中排名 用超人的话说,“接近或达到天才的水平”。 但是,这种智能的成本需要O1的计算强度的十倍以上。 与O3的全血版本相比,O4-Mini站在小,高效和有效的成本中。 在Aime 2025测试中,O4-Mini在Python的口译员上得分99.5%,几乎完美地赢得了这一基准。 此外,它增加了数学,编程,视觉活动和非词干领域的O3米尼。 此外,O4-Mini支持在O3上使用配额,这是高折线场景的最佳方案。 简而言之,可以运行到终端-Codex CLI。 从现在开始,Chatgpt Plus,Pro和Team用户将首次体验O3,O4- mini和O4 -mini-高高,以更换O1,O3 -mini和O3 -mini -Mini -High。 同时,通过完成API聊天和API响应,这两个模型还将向所有开发人员提供。 推理模型,首次使用工具是 在现场演示中,格雷格首次制作的模型就像合格的跳跃一样,GPT-4就是其中之一,现在O3/O4-Mini是相同的。 他说,O3和他的同事允许他看到AI模型可以实现“尚未看到的事”,因为足够的,它暗示了系统体系结构本身的好主意。 令人惊讶的是,这两个模型不仅是一个模型,而且是一个“合格系统”。 他们与以前的理解模型之间的最大区别是,它们首次用于训练不同的工具。他们在婴儿床中使用这些工具来解决难题。 在最终的人类考试中,O3模型与 - 深度研究表现相当,速度更快 为了克服一个复杂的问题,O3同时使用了大约600个工具调用。他们同时形成的代码片段确实在代码底部工作。 格雷格说,他喜欢的是他们的软件工程功能:他们不仅可以编写一个时间代码,而且还可以使用真实的代码库! 例如,在浏览OpenAI代码库时,这比Greg更好。这是非常有用的地方。 此外,在命令的随访和代理工具的分析中,O3和O4-Mini与该工具相结合最高的精度。 对专家的外部分析表明,当O3执行现实世界任务时,与O1相比,严重错误率降低了20%。 大规模发展的原因是由RL算法的持续发展驱动的。用格雷格(Greg)的话来说,引擎盖下最令人惊奇的事情仍然可以预测一个令牌并增加了一些RL AI,这已经达到了这一点。 那么,工具如何在实际过程中使用O3来解决复杂的任务? 多模式团队研究员布兰登·麦金齐(Brandon McKinzie)上传了一张物理实习海报,该海报于2015年完成,要求Chatgpt估算Proton同位素标量中的费用数量。 在开始推理的同时,单独审查了光子中的内容,并确定布兰登提出的正确数量的问题。实际上,最终结果没有被海报屏幕截图覆盖。 因此,O3开始在线搜索以查找最新的估计,并在几秒钟内阅读十二篇论文,从而节省了很多时间。 结果W该模型计算非正式值,并且通过一定的一致性增加,并且可能是正常的,并且最终结果更接近实际情况。 训练后团队的研究人员埃里克·米切尔(Eric Mitchell)打开了对Chatgpt的记忆,然后让O3找到与他的兴趣相关的新闻,这应该是不足的。 O3基于现有知识 - 潜水和播放音乐,积极思考和通话工具,并发现了一些相关的兴趣 - 请内容。 例如,研究人员录制了健康的珊瑚声音,并与扬声器一起播放录音,促进了新的珊瑚和鱼类赎回。 同时,它还可以绘制视觉数据,这很容易直接放在博客文章上。 也就是说,如果使用O3来切割科学领域或在日常工作流程中的模型整合,那将是有用的。 解决AIME的数学竞赛问题时,要求O3观察2x2网格网格并计算COLO的数量符合障碍的R计划。 它首先生成一个蛮力程序,然后由Python翻译人员运行,并得到正确的答案,即82。 它还将自动检查答案的可靠性,甚至最终为人们提供了简单的解释解决方案。 研究人员感到惊讶,在O3培训期间没有使用类似的技术,或者他们不需要缓解,并且它们都由AI独立学习完成。 在编码的工作中,研究人员要求O3-High找到一个称为符号软件包的错误。 首先,该模型将积极评估上述问题是否存在于教学中,并试图了解代码存储库的整体代码。 然后,它找到了一个可以解释班级来继承信息的python结构,并基于世界现有知识,发现了问题。 最后,O3通过浏览Internet -Apply_patch找到了最佳解决方案。 根据公司Gnive成本,O3和O4-Mini不仅是至今最明智的模型,而且与O1和O3 Mini相比,效率和成本控制方面的基准也是SETNEW基准。 在2025年的AIME数学竞赛中,O3推理成本和性能通常比O1更好,同样,O4-Mini成本效果通常比O3 Mini更好。 因此,如果您需要一个小但快速的多模式推理模型,则O4-Mini将是一个不错的选择。 O3和O4-Mini可以独立选择工具和计划方法来解决问题,无论是数学,商业,科学,体育还是视觉推理。 例如,在解决运动问题时,O3可能会连接到Internet以获取最新数据,并考虑到2022 - 23年联盟略有增加后的收益率达到正常状态。 O1提供的数据大约是值,略有偏见,不够准确,NIT是错误的,无法相信基本被盗的增加完全是由于俯仰计时器,忽略了更直接的因素,例如扩展基垫和限制次数。 关于 想想图像,新的视觉推理峰值 更明显的是,O3和O4-Mini在视觉推理中超过了前几代人,并成为O. 他们通过在思想链(COT)中使用图像在视觉理解方面取得了重大成功。 Openai首次实施模型,以为他们的思维链中有图像 - 不仅仅是看图片。 类似于早期的OpenAi O1,O3和O4 -Mini在回答之前可以更长的时间思考,并且在用户sagutin之前会发展一条长的思维链。 不仅如此,O3和O4-Mini可以在思考时“查看”图片。通过工具来处理用户上传的图像,例如简单的图像处理,例如裁剪,抬高和旋转,可以实现此功能。 更令人惊奇的是令人惊讶的是,这些功能是本地的,不必依靠其他专业模型。 在基准测试中,这种具有图像的思考不需要依靠Web浏览的能力,破坏了前几代多模型模型的性能。 O3和O4-Mini均在STEM Q&A字段(MMMU,Mathvista),图表阅读和推理(CHARXIV),感知原语(VLMS是盲人)和Visual Search(V*)中设置SOTA。 特别是,在V*基准测试中,这两个模型几乎以96.3%的精度克服了这一挑战,这标志着视觉推理技术的重大飞跃。 改进的CHATGPT视觉智能可以更彻底,准确和可靠地研究图片,从而帮助您解决更困难的问题。 它可以将高级推理与Web搜索和图像处理等工具无缝结合,以自动扩大,裁剪,翻转或优化图像,即使图片不完美,它也可以挖掘有用的INFormation。 例如,您可以上传家庭作业分配的图片并逐步答案,或共享程序错误的屏幕截图,以快速确定问题的根本原因。 此方法将开辟一种新的方法,以扩大测试时间,完美的视觉和文本整合。 这反映在它们在多模式基准上的领先表现中,这标志着多模式推理的重要一步。 视觉推理练习 使用图像进行思考使您可以更轻松地与Chatgpt联系。 您可以拍摄照片并直接提出问题而不必担心将内容放置 - 文字是否颠倒了,或者图片中有很多物理问题。 尽管乍一看情况不清楚,但视觉推理可能会使模型在详细信息中并清楚地查看细节。 例如,放在桌子上的笔记本几乎与视觉线平行,这里有两个模糊的单词,使人们很难Ult直接识别。 Chatgpt可以将图片增长以查看,并在发现单词倒置后,旋转它,最后被成功地识别出来。 上下 上下 上下 上下 OpenAI的最新视觉推理模型可以与Python数据审核,Web搜索,图像生成和其他工具合作,并解决更复杂的问题创造性和高效,从而使用户首次获得多模式的智能体验。 编程代理Codex CLI绝对开放资源 接下来,Openai表示,将显示Codex Heritage的一些延续,发布一系列应用程序,并定义了编程的未来。 除了新模型外,OpenAI还打开了一种新的实验工具的来源:Codex CLI,可以在终端运行的轻量级编程。 它的目的是根据需要与恋人一起部署代码的实现。 它直接运行到本地计算机,旨在提供大力l效果符合O3和O4-Mini等模型的强大功能,并将很快支持API呼吁更多的型号,例如GPT-4.1⁠。 通过将屏幕截图或Lo-Fi草图传递给模型,并伴随着访问本地代码的权限,您可以体验命令行中多模式推理的强度。 同时,他们还启动了一项100万美元的捐赠计划,以使用Codex CLI和OpenAI模型来支持项目。 当Github项目发布时,Codex CLI赢得了3.3k星级,表明响应很高。 项目地址:https://github.com/openai/codex 在适当的地方,OpenAI演示员工参考在线帖子,并使用ANG Codex和O4 Mini向ASCII发电机制作很酷的图片。 只需先拍照,将其拖到终端,然后您就可以将其提供给法典。 令人惊讶的是,您可以真正看到它的思维,还可以直接运行该工具。 完成后,该法典会创建一个ASCII HTML文件,甚至生成一个滑块可以控制分辨率。 换句话说,任何计算机文件以及您正在处理的代码库都可以放置在法典上! 在现场,研究人员还成功添加了网络摄像头API。 扩展增强学习仍然有效 在OpenAI O3的完整研究和开发过程中,研究人员注意到一种现象:强化的主要研究也符合GPT系列预培训期间出现的法律,也就是说:“投入了更多的计算机来源,可以获得绩效的Mahusis越多。” 遵循这一规模的途径,他们目前专注于研究加固(RL),从而在理解阶段增加了训练计算的数量和思维(或识别的计算),并通过幅度的幅度进行了大小,并且仍在进行显着的绩效改进。 技术报告:https://cdn.openai.com/pdf/2221C875-02DC-4789-800B-E77758F3722C1/O3------o4-o4-o4-Mini-stem-stem-stem-stem-card.pdf 蒂S证明,只要该模型有更多的时间“思考”,其性能就会继续提高。 与上一代O1相比,O3在延迟和成本上都显示出更高的性能。更令人兴奋的是,当思考更长的时间时,其表现会继续攀升。 此外,通过对加强研究的培训,OpenAI启用O3和O4 -Mini掌握了使用工具的智慧 - 不仅知道“如何使用”,而且还了解“何时使用”。 它们不仅可以完全访问内置的chatgpt工具,而且还可以通过功能API功能的功能访问用户指定的工具。 此功能使模型在开放情况下更容易,尤其是在需要视觉推理和多个工作流程的复杂任务中。 此外,除了以前的情况外,我们在调用模型工具的能力方面取得了基本步骤。 事先获得内部测试资格的大wig被O3感到惊讶。 特别是在F中临床和医学科学的表现令人惊讶。无论是诊断测试还是治疗建议,它似乎都是由高级专家撰写的。 如果它加快了科学发现,优化的临床决策或推理的跨场变化,则O3成为了这一变化的领导者。 参考: https://openai.com/index/thinking-with-images/ https://openai.com/index/introducing-o3-and-o4-dini/return to sohu看到更多

Copyright © 2024-2026 AG亚娱官方网站入口_AG亚洲游戏国际平台登录 版权所有

网站地图

鄂ICP备36659856号

友情链接: