XIN Zhiyuan报告编辑:编辑部门NZYH [Xin Zhiyuan介绍] O3和O4-Mini的完全血液版本可在深夜获得,并结合了首次出现思维链中的形象,他们还将在60秒内独立地呼叫工具以独立解决复杂问题。特别是,O3刷新编程,数学和视觉推理,其计算强度是O1的十倍,该计算强度接近“天才水平”。此外,Openai还开设了编程Artifact Codex CLI的主权,该编程在一夜之间变得流行。正如预期的那样,O3的全血版本确实在这里。刚才,Openai United Chuang Greg Brockman和首席研究官员Mark Chen带领团队开始了20分钟的在线直播。目前,不仅是O3,而且是下一个Generacyon推理O4-Mini模型。他们第一次实现了“使用图像思考”,这是最受欢迎的视觉推理。像AI代理一样,两个模型独立判断并结合使用内置的ChatGpt工具的使用时间不到1分钟,以产生详细且全面的答案。扩展全文
这包括查找网页,查看上传的文件和python上的数据,深度视觉输入推理,甚至开发图像。
在基准测试中,例如CodeForces,Swe-Bench,MMMU,O3刷新SOTA,为编程,数学,科学和视觉感知设定了新的基准。
特别是,对于图像,图表和图形分析,O3特别残留,可以深入探索视觉输入细节。
对于Codeforces,Bagong Model标记了2700多分,在全球前200名竞争者中排名
用超人的话说,“接近或达到天才的水平”。
但是,这种智能的成本需要O1的计算强度的十倍以上。
与O3的全血版本相比,O4-Mini站在小,高效和有效的成本中。
在Aime 2025测试中,O4-Mini在Python的口译员上得分99.5%,几乎完美地赢得了这一基准。
此外,它增加了数学,编程,视觉活动和非词干领域的O3米尼。
此外,O4-Mini支持在O3上使用配额,这是高折线场景的最佳方案。
简而言之,可以运行到终端-Codex CLI。
从现在开始,Chatgpt Plus,Pro和Team用户将首次体验O3,O4- mini和O4 -mini-高高,以更换O1,O3 -mini和O3 -mini -Mini -High。
同时,通过完成API聊天和API响应,这两个模型还将向所有开发人员提供。
推理模型,首次使用工具是
在现场演示中,格雷格首次制作的模型就像合格的跳跃一样,GPT-4就是其中之一,现在O3/O4-Mini是相同的。
他说,O3和他的同事允许他看到AI模型可以实现“尚未看到的事”,因为足够的,它暗示了系统体系结构本身的好主意。
令人惊讶的是,这两个模型不仅是一个模型,而且是一个“合格系统”。
他们与以前的理解模型之间的最大区别是,它们首次用于训练不同的工具。他们在婴儿床中使用这些工具来解决难题。
在最终的人类考试中,O3模型与 - 深度研究表现相当,速度更快
为了克服一个复杂的问题,O3同时使用了大约600个工具调用。他们同时形成的代码片段确实在代码底部工作。
格雷格说,他喜欢的是他们的软件工程功能:他们不仅可以编写一个时间代码,而且还可以使用真实的代码库!
例如,在浏览OpenAI代码库时,这比Greg更好。这是非常有用的地方。
此外,在命令的随访和代理工具的分析中,O3和O4-Mini与该工具相结合最高的精度。
对专家的外部分析表明,当O3执行现实世界任务时,与O1相比,严重错误率降低了20%。
大规模发展的原因是由RL算法的持续发展驱动的。用格雷格(Greg)的话来说,引擎盖下最令人惊奇的事情仍然可以预测一个令牌并增加了一些RL AI,这已经达到了这一点。
那么,工具如何在实际过程中使用O3来解决复杂的任务?
多模式团队研究员布兰登·麦金齐(Brandon McKinzie)上传了一张物理实习海报,该海报于2015年完成,要求Chatgpt估算Proton同位素标量中的费用数量。
在开始推理的同时,单独审查了光子中的内容,并确定布兰登提出的正确数量的问题。实际上,最终结果没有被海报屏幕截图覆盖。
因此,O3开始在线搜索以查找最新的估计,并在几秒钟内阅读十二篇论文,从而节省了很多时间。
结果W该模型计算非正式值,并且通过一定的一致性增加,并且可能是正常的,并且最终结果更接近实际情况。
训练后团队的研究人员埃里克·米切尔(Eric Mitchell)打开了对Chatgpt的记忆,然后让O3找到与他的兴趣相关的新闻,这应该是不足的。
O3基于现有知识 - 潜水和播放音乐,积极思考和通话工具,并发现了一些相关的兴趣 - 请内容。
例如,研究人员录制了健康的珊瑚声音,并与扬声器一起播放录音,促进了新的珊瑚和鱼类赎回。
同时,它还可以绘制视觉数据,这很容易直接放在博客文章上。
也就是说,如果使用O3来切割科学领域或在日常工作流程中的模型整合,那将是有用的。
解决AIME的数学竞赛问题时,要求O3观察2x2网格网格并计算COLO的数量符合障碍的R计划。
它首先生成一个蛮力程序,然后由Python翻译人员运行,并得到正确的答案,即82。
它还将自动检查答案的可靠性,甚至最终为人们提供了简单的解释解决方案。
研究人员感到惊讶,在O3培训期间没有使用类似的技术,或者他们不需要缓解,并且它们都由AI独立学习完成。
在编码的工作中,研究人员要求O3-High找到一个称为符号软件包的错误。
首先,该模型将积极评估上述问题是否存在于教学中,并试图了解代码存储库的整体代码。
然后,它找到了一个可以解释班级来继承信息的python结构,并基于世界现有知识,发现了问题。
最后,O3通过浏览Internet -Apply_patch找到了最佳解决方案。
根据公司Gnive成本,O3和O4-Mini不仅是至今最明智的模型,而且与O1和O3 Mini相比,效率和成本控制方面的基准也是SETNEW基准。
在2025年的AIME数学竞赛中,O3推理成本和性能通常比O1更好,同样,O4-Mini成本效果通常比O3 Mini更好。
因此,如果您需要一个小但快速的多模式推理模型,则O4-Mini将是一个不错的选择。
O3和O4-Mini可以独立选择工具和计划方法来解决问题,无论是数学,商业,科学,体育还是视觉推理。
例如,在解决运动问题时,O3可能会连接到Internet以获取最新数据,并考虑到2022 - 23年联盟略有增加后的收益率达到正常状态。
O1提供的数据大约是值,略有偏见,不够准确,NIT是错误的,无法相信基本被盗的增加完全是由于俯仰计时器,忽略了更直接的因素,例如扩展基垫和限制次数。
关于
想想图像,新的视觉推理峰值
更明显的是,O3和O4-Mini在视觉推理中超过了前几代人,并成为O.
他们通过在思想链(COT)中使用图像在视觉理解方面取得了重大成功。
Openai首次实施模型,以为他们的思维链中有图像 - 不仅仅是看图片。
类似于早期的OpenAi O1,O3和O4 -Mini在回答之前可以更长的时间思考,并且在用户sagutin之前会发展一条长的思维链。
不仅如此,O3和O4-Mini可以在思考时“查看”图片。通过工具来处理用户上传的图像,例如简单的图像处理,例如裁剪,抬高和旋转,可以实现此功能。
更令人惊奇的是令人惊讶的是,这些功能是本地的,不必依靠其他专业模型。
在基准测试中,这种具有图像的思考不需要依靠Web浏览的能力,破坏了前几代多模型模型的性能。
O3和O4-Mini均在STEM Q&A字段(MMMU,Mathvista),图表阅读和推理(CHARXIV),感知原语(VLMS是盲人)和Visual Search(V*)中设置SOTA。
特别是,在V*基准测试中,这两个模型几乎以96.3%的精度克服了这一挑战,这标志着视觉推理技术的重大飞跃。
改进的CHATGPT视觉智能可以更彻底,准确和可靠地研究图片,从而帮助您解决更困难的问题。
它可以将高级推理与Web搜索和图像处理等工具无缝结合,以自动扩大,裁剪,翻转或优化图像,即使图片不完美,它也可以挖掘有用的INFormation。
例如,您可以上传家庭作业分配的图片并逐步答案,或共享程序错误的屏幕截图,以快速确定问题的根本原因。
此方法将开辟一种新的方法,以扩大测试时间,完美的视觉和文本整合。
这反映在它们在多模式基准上的领先表现中,这标志着多模式推理的重要一步。
视觉推理练习
使用图像进行思考使您可以更轻松地与Chatgpt联系。
您可以拍摄照片并直接提出问题而不必担心将内容放置 - 文字是否颠倒了,或者图片中有很多物理问题。
尽管乍一看情况不清楚,但视觉推理可能会使模型在详细信息中并清楚地查看细节。
例如,放在桌子上的笔记本几乎与视觉线平行,这里有两个模糊的单词,使人们很难Ult直接识别。
Chatgpt可以将图片增长以查看,并在发现单词倒置后,旋转它,最后被成功地识别出来。
上下
上下
上下
上下
OpenAI的最新视觉推理模型可以与Python数据审核,Web搜索,图像生成和其他工具合作,并解决更复杂的问题创造性和高效,从而使用户首次获得多模式的智能体验。
编程代理Codex CLI绝对开放资源
接下来,Openai表示,将显示Codex Heritage的一些延续,发布一系列应用程序,并定义了编程的未来。
除了新模型外,OpenAI还打开了一种新的实验工具的来源:Codex CLI,可以在终端运行的轻量级编程。
它的目的是根据需要与恋人一起部署代码的实现。
它直接运行到本地计算机,旨在提供大力l效果符合O3和O4-Mini等模型的强大功能,并将很快支持API呼吁更多的型号,例如GPT-4.1。
通过将屏幕截图或Lo-Fi草图传递给模型,并伴随着访问本地代码的权限,您可以体验命令行中多模式推理的强度。
同时,他们还启动了一项100万美元的捐赠计划,以使用Codex CLI和OpenAI模型来支持项目。
当Github项目发布时,Codex CLI赢得了3.3k星级,表明响应很高。
项目地址:https://github.com/openai/codex
在适当的地方,OpenAI演示员工参考在线帖子,并使用ANG Codex和O4 Mini向ASCII发电机制作很酷的图片。
只需先拍照,将其拖到终端,然后您就可以将其提供给法典。
令人惊讶的是,您可以真正看到它的思维,还可以直接运行该工具。
完成后,该法典会创建一个ASCII HTML文件,甚至生成一个滑块可以控制分辨率。
换句话说,任何计算机文件以及您正在处理的代码库都可以放置在法典上!
在现场,研究人员还成功添加了网络摄像头API。
扩展增强学习仍然有效
在OpenAI O3的完整研究和开发过程中,研究人员注意到一种现象:强化的主要研究也符合GPT系列预培训期间出现的法律,也就是说:“投入了更多的计算机来源,可以获得绩效的Mahusis越多。”
遵循这一规模的途径,他们目前专注于研究加固(RL),从而在理解阶段增加了训练计算的数量和思维(或识别的计算),并通过幅度的幅度进行了大小,并且仍在进行显着的绩效改进。
技术报告:https://cdn.openai.com/pdf/2221C875-02DC-4789-800B-E77758F3722C1/O3------o4-o4-o4-Mini-stem-stem-stem-stem-card.pdf
蒂S证明,只要该模型有更多的时间“思考”,其性能就会继续提高。
与上一代O1相比,O3在延迟和成本上都显示出更高的性能。更令人兴奋的是,当思考更长的时间时,其表现会继续攀升。
此外,通过对加强研究的培训,OpenAI启用O3和O4 -Mini掌握了使用工具的智慧 - 不仅知道“如何使用”,而且还了解“何时使用”。
它们不仅可以完全访问内置的chatgpt工具,而且还可以通过功能API功能的功能访问用户指定的工具。
此功能使模型在开放情况下更容易,尤其是在需要视觉推理和多个工作流程的复杂任务中。
此外,除了以前的情况外,我们在调用模型工具的能力方面取得了基本步骤。
事先获得内部测试资格的大wig被O3感到惊讶。
特别是在F中临床和医学科学的表现令人惊讶。无论是诊断测试还是治疗建议,它似乎都是由高级专家撰写的。
如果它加快了科学发现,优化的临床决策或推理的跨场变化,则O3成为了这一变化的领导者。
参考:
https://openai.com/index/thinking-with-images/
https://openai.com/index/introducing-o3-and-o4-dini/return to sohu看到更多
Openai惊讶地发布O3/O4
2025-04-18