Openai惊讶地发布O3/O4_AG亚娱官方网站入口

Openai惊讶地发布O3/O4

2025-04-18

XIN Zhiyuan报告编辑：编辑部门NZYH [Xin Zhiyuan介绍] O3和O4-Mini的完全血液版本可在深夜获得，并结合了首次出现思维链中的形象，他们还将在60秒内独立地呼叫工具以独立解决复杂问题。特别是，O3刷新编程，数学和视觉推理，其计算强度是O1的十倍，该计算强度接近“天才水平”。此外，Openai还开设了编程Artifact Codex CLI的主权，该编程在一夜之间变得流行。正如预期的那样，O3的全血版本确实在这里。刚才，Openai United Chuang Greg Brockman和首席研究官员Mark Chen带领团队开始了20分钟的在线直播。目前，不仅是O3，而且是下一个Generacyon推理O4-Mini模型。他们第一次实现了“使用图像思考”，这是最受欢迎的视觉推理。像AI代理一样，两个模型独立判断并结合使用内置的ChatGpt工具的使用时间不到1分钟，以产生详细且全面的答案。扩展全文这包括查找网页，查看上传的文件和python上的数据，深度视觉输入推理，甚至开发图像。在基准测试中，例如CodeForces，Swe-Bench，MMMU，O3刷新SOTA，为编程，数学，科学和视觉感知设定了新的基准。特别是，对于图像，图表和图形分析，O3特别残留，可以深入探索视觉输入细节。对于Codeforces，Bagong Model标记了2700多分，在全球前200名竞争者中排名用超人的话说，“接近或达到天才的水平”。但是，这种智能的成本需要O1的计算强度的十倍以上。与O3的全血版本相比，O4-Mini站在小，高效和有效的成本中。在Aime 2025测试中，O4-Mini在Python的口译员上得分99.5％，几乎完美地赢得了这一基准。此外，它增加了数学，编程，视觉活动和非词干领域的O3米尼。此外，O4-Mini支持在O3上使用配额，这是高折线场景的最佳方案。简而言之，可以运行到终端-Codex CLI。从现在开始，Chatgpt Plus，Pro和Team用户将首次体验O3，O4- mini和O4 -mini-高高，以更换O1，O3 -mini和O3 -mini -Mini -High。同时，通过完成API聊天和API响应，这两个模型还将向所有开发人员提供。推理模型，首次使用工具是在现场演示中，格雷格首次制作的模型就像合格的跳跃一样，GPT-4就是其中之一，现在O3/O4-Mini是相同的。他说，O3和他的同事允许他看到AI模型可以实现“尚未看到的事”，因为足够的，它暗示了系统体系结构本身的好主意。令人惊讶的是，这两个模型不仅是一个模型，而且是一个“合格系统”。他们与以前的理解模型之间的最大区别是，它们首次用于训练不同的工具。他们在婴儿床中使用这些工具来解决难题。在最终的人类考试中，O3模型与 - 深度研究表现相当，速度更快为了克服一个复杂的问题，O3同时使用了大约600个工具调用。他们同时形成的代码片段确实在代码底部工作。格雷格说，他喜欢的是他们的软件工程功能：他们不仅可以编写一个时间代码，而且还可以使用真实的代码库！例如，在浏览OpenAI代码库时，这比Greg更好。这是非常有用的地方。此外，在命令的随访和代理工具的分析中，O3和O4-Mini与该工具相结合最高的精度。对专家的外部分析表明，当O3执行现实世界任务时，与O1相比，严重错误率降低了20％。大规模发展的原因是由RL算法的持续发展驱动的。用格雷格（Greg）的话来说，引擎盖下最令人惊奇的事情仍然可以预测一个令牌并增加了一些RL AI，这已经达到了这一点。那么，工具如何在实际过程中使用O3来解决复杂的任务？多模式团队研究员布兰登·麦金齐（Brandon McKinzie）上传了一张物理实习海报，该海报于2015年完成，要求Chatgpt估算Proton同位素标量中的费用数量。在开始推理的同时，单独审查了光子中的内容，并确定布兰登提出的正确数量的问题。实际上，最终结果没有被海报屏幕截图覆盖。因此，O3开始在线搜索以查找最新的估计，并在几秒钟内阅读十二篇论文，从而节省了很多时间。结果W该模型计算非正式值，并且通过一定的一致性增加，并且可能是正常的，并且最终结果更接近实际情况。训练后团队的研究人员埃里克·米切尔（Eric Mitchell）打开了对Chatgpt的记忆，然后让O3找到与他的兴趣相关的新闻，这应该是不足的。 O3基于现有知识 - 潜水和播放音乐，积极思考和通话工具，并发现了一些相关的兴趣 - 请内容。例如，研究人员录制了健康的珊瑚声音，并与扬声器一起播放录音，促进了新的珊瑚和鱼类赎回。同时，它还可以绘制视觉数据，这很容易直接放在博客文章上。也就是说，如果使用O3来切割科学领域或在日常工作流程中的模型整合，那将是有用的。解决AIME的数学竞赛问题时，要求O3观察2x2网格网格并计算COLO的数量符合障碍的R计划。它首先生成一个蛮力程序，然后由Python翻译人员运行，并得到正确的答案，即82。它还将自动检查答案的可靠性，甚至最终为人们提供了简单的解释解决方案。研究人员感到惊讶，在O3培训期间没有使用类似的技术，或者他们不需要缓解，并且它们都由AI独立学习完成。在编码的工作中，研究人员要求O3-High找到一个称为符号软件包的错误。首先，该模型将积极评估上述问题是否存在于教学中，并试图了解代码存储库的整体代码。然后，它找到了一个可以解释班级来继承信息的python结构，并基于世界现有知识，发现了问题。最后，O3通过浏览Internet -Apply_patch找到了最佳解决方案。根据公司Gnive成本，O3和O4-Mini不仅是至今最明智的模型，而且与O1和O3 Mini相比，效率和成本控制方面的基准也是SETNEW基准。在2025年的AIME数学竞赛中，O3推理成本和性能通常比O1更好，同样，O4-Mini成本效果通常比O3 Mini更好。因此，如果您需要一个小但快速的多模式推理模型，则O4-Mini将是一个不错的选择。 O3和O4-Mini可以独立选择工具和计划方法来解决问题，无论是数学，商业，科学，体育还是视觉推理。例如，在解决运动问题时，O3可能会连接到Internet以获取最新数据，并考虑到2022 - 23年联盟略有增加后的收益率达到正常状态。 O1提供的数据大约是值，略有偏见，不够准确，NIT是错误的，无法相信基本被盗的增加完全是由于俯仰计时器，忽略了更直接的因素，例如扩展基垫和限制次数。关于想想图像，新的视觉推理峰值更明显的是，O3和O4-Mini在视觉推理中超过了前几代人，并成为O. 他们通过在思想链（COT）中使用图像在视觉理解方面取得了重大成功。 Openai首次实施模型，以为他们的思维链中有图像 - 不仅仅是看图片。类似于早期的OpenAi O1，O3和O4 -Mini在回答之前可以更长的时间思考，并且在用户sagutin之前会发展一条长的思维链。不仅如此，O3和O4-Mini可以在思考时“查看”图片。通过工具来处理用户上传的图像，例如简单的图像处理，例如裁剪，抬高和旋转，可以实现此功能。更令人惊奇的是令人惊讶的是，这些功能是本地的，不必依靠其他专业模型。在基准测试中，这种具有图像的思考不需要依靠Web浏览的能力，破坏了前几代多模型模型的性能。 O3和O4-Mini均在STEM Q＆A字段（MMMU，Mathvista），图表阅读和推理（CHARXIV），感知原语（VLMS是盲人）和Visual Search（V*）中设置SOTA。特别是，在V*基准测试中，这两个模型几乎以96.3％的精度克服了这一挑战，这标志着视觉推理技术的重大飞跃。改进的CHATGPT视觉智能可以更彻底，准确和可靠地研究图片，从而帮助您解决更困难的问题。它可以将高级推理与Web搜索和图像处理等工具无缝结合，以自动扩大，裁剪，翻转或优化图像，即使图片不完美，它也可以挖掘有用的INFormation。例如，您可以上传家庭作业分配的图片并逐步答案，或共享程序错误的屏幕截图，以快速确定问题的根本原因。此方法将开辟一种新的方法，以扩大测试时间，完美的视觉和文本整合。这反映在它们在多模式基准上的领先表现中，这标志着多模式推理的重要一步。视觉推理练习使用图像进行思考使您可以更轻松地与Chatgpt联系。您可以拍摄照片并直接提出问题而不必担心将内容放置 - 文字是否颠倒了，或者图片中有很多物理问题。尽管乍一看情况不清楚，但视觉推理可能会使模型在详细信息中并清楚地查看细节。例如，放在桌子上的笔记本几乎与视觉线平行，这里有两个模糊的单词，使人们很难Ult直接识别。 Chatgpt可以将图片增长以查看，并在发现单词倒置后，旋转它，最后被成功地识别出来。上下上下上下上下 OpenAI的最新视觉推理模型可以与Python数据审核，Web搜索，图像生成和其他工具合作，并解决更复杂的问题创造性和高效，从而使用户首次获得多模式的智能体验。编程代理Codex CLI绝对开放资源接下来，Openai表示，将显示Codex Heritage的一些延续，发布一系列应用程序，并定义了编程的未来。除了新模型外，OpenAI还打开了一种新的实验工具的来源：Codex CLI，可以在终端运行的轻量级编程。它的目的是根据需要与恋人一起部署代码的实现。它直接运行到本地计算机，旨在提供大力l效果符合O3和O4-Mini等模型的强大功能，并将很快支持API呼吁更多的型号，例如GPT-4.1⁠。通过将屏幕截图或Lo-Fi草图传递给模型，并伴随着访问本地代码的权限，您可以体验命令行中多模式推理的强度。同时，他们还启动了一项100万美元的捐赠计划，以使用Codex CLI和OpenAI模型来支持项目。当Github项目发布时，Codex CLI赢得了3.3k星级，表明响应很高。项目地址：https：//github.com/openai/codex 在适当的地方，OpenAI演示员工参考在线帖子，并使用ANG Codex和O4 Mini向ASCII发电机制作很酷的图片。只需先拍照，将其拖到终端，然后您就可以将其提供给法典。令人惊讶的是，您可以真正看到它的思维，还可以直接运行该工具。完成后，该法典会创建一个ASCII HTML文件，甚至生成一个滑块可以控制分辨率。换句话说，任何计算机文件以及您正在处理的代码库都可以放置在法典上！在现场，研究人员还成功添加了网络摄像头API。扩展增强学习仍然有效在OpenAI O3的完整研究和开发过程中，研究人员注意到一种现象：强化的主要研究也符合GPT系列预培训期间出现的法律，也就是说：“投入了更多的计算机来源，可以获得绩效的Mahusis越多。” 遵循这一规模的途径，他们目前专注于研究加固（RL），从而在理解阶段增加了训练计算的数量和思维（或识别的计算），并通过幅度的幅度进行了大小，并且仍在进行显着的绩效改进。技术报告：https：//cdn.openai.com/pdf/2221C875-02DC-4789-800B-E77758F3722C1/O3------o4-o4-o4-Mini-stem-stem-stem-stem-card.pdf 蒂S证明，只要该模型有更多的时间“思考”，其性能就会继续提高。与上一代O1相比，O3在延迟和成本上都显示出更高的性能。更令人兴奋的是，当思考更长的时间时，其表现会继续攀升。此外，通过对加强研究的培训，OpenAI启用O3和O4 -Mini掌握了使用工具的智慧 - 不仅知道“如何使用”，而且还了解“何时使用”。它们不仅可以完全访问内置的chatgpt工具，而且还可以通过功能API功能的功能访问用户指定的工具。此功能使模型在开放情况下更容易，尤其是在需要视觉推理和多个工作流程的复杂任务中。此外，除了以前的情况外，我们在调用模型工具的能力方面取得了基本步骤。事先获得内部测试资格的大wig被O3感到惊讶。特别是在F中临床和医学科学的表现令人惊讶。无论是诊断测试还是治疗建议，它似乎都是由高级专家撰写的。如果它加快了科学发现，优化的临床决策或推理的跨场变化，则O3成为了这一变化的领导者。参考： https://openai.com/index/thinking-with-images/ https://openai.com/index/introducing-o3-and-o4-dini/return to sohu看到更多