压轴大作!OpenAI推出o3模子系列:AGI评测最好收货达到惊东谈主的87.5% 东谈主类水平的门槛为85%

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

栏目分类压轴大作!OpenAI推出o3模子系列:AGI评测最好收货达到惊东谈主的87.5% 东谈主类水平的门槛为85%

你的位置:经济观察网 > 经济评论 >

压轴大作!OpenAI推出o3模子系列:AGI评测最好收货达到惊东谈主的87.5% 东谈主类水平的门槛为85%

发布日期:2024-12-21 10:49    点击次数:139

  当地时辰12月20日周五,在为期12个责任日的线上新品发布行径临了一日,OpenAI告示了“压轴大作”:o1的下一代模子o3,况且一开动就要推出两个版块,一个认的确o3,还有一个相对较小的精简版o3-mini。

  OpenAI的CEO Sam Altman在直播中提到,OpenAI本次12日的行径第一天官宣了上线郑再版o1、所谓满血o1。行径临了一天又有o3亮相,首尾齐由先容推理模子呼应,也算是一种经心野心。

  逻辑上说,o1的下一代应该定名为o2,至于为什么新模子叫o3,之前报谈称,OpenAI是为了幸免和名为O2的英国电信做事商冲突。Altman也阐发了这点,说出于对O2的尊敬,并莫得起相同的名字。

  直播中,Altman称o3是“一个独特、独特贤人的模子”。OpenAi的评估遏抑也表现,不管在软件工程、编写代码,如故竞赛数学、掌抓东谈主类博士级别的当然科学常识才能方面,o3齐彰着高出o1一筹。同期测试表现,o3在OpenAI完毕通用东谈主工智能(AGI)这一立志看法上取得了冲突,最高的测试收货达到了类东谈主水平。

  本年9月,OpenAI发布o1的预览版o1 preview时称,o1是第一个具备确切通用推理才能的大模子,它的中枢才能推理在测试化学、物理和生物学专科常识的基准GPQA-diamond上得到了充分体现。据OpenAI评估,o1在该测试中全面突出了东谈主类博士内行,准确率达到78.3%,而东谈主类内行的得分为69.7%。

  在12月20日的直播中,OpenAI展示了o3的测评推崇:

  凭证OpenAI8月推出的SWE-bench Verified代码生成评估基准,在软件工程的才能测评中,o3的准确度得分71.7,即准确率71.7%,远超得分48.9的o1和得分41.3的o1 preview。也便是说,o3的准确率比o1郑再版高快要47%,比o1预览版高快要74%。

  在竞争性编程网站Codeforces的竞争性代码测评中,o3取得2727的Elo评分,o1评分1891,o1 preview评分1258。这个测评遏抑表现,竞争性代码方面,o3的评分比o1郑再版高44%,是o1预览版的两倍多。

  经过2024年AIME数学竞赛的题目测试,o3的准确度得分为96.7、即准确率96.7%,大幅度突出了o1预览版的56.7和o1的83.3%,仅错了一齐题,特地于又名顶级数学家的水平。从竞赛数学的角度看,o3的准确率比o1郑再版高15%,比o1预览版高近71%。

  以东谈主类博士内行的测试测验,在测试化学、物理和生物学专科常识的基准GPQA-diamond上,o3的准确度得分为87.7,即准确率87.7%,o1和o1 preview辨认得分78.0和78.3。o3的准确率比o1高快要13%,比o1预览版高12%。

  OpenAI周五还展示了,o3的推理才能一经愈加接近完毕AGI。

  以100%为最高分的ARC-AGI评估遏抑表现,o1的得分在25%到32%,而o3的最低收货为75.7%,最高收货为87.5%。从这个遏抑看,o3的最好收货突出了标记着达到东谈主类水平的门槛85%。

  创举ARC-AGI治安的前谷歌高档工程师、AI盘问员Franois Chollet默示,OpenAI这些推理模子在AGI测试中取得跳跃是“肃肃的”。

  Chollet周五在酬酢媒体X发帖,公布了同OpenAI衔尾进行的ARC-AGI测试遏抑,称“咱们肯定这代表了让AI符合新任务的紧要冲突。”

  与o3模子比拟,o3Mini模子在性能与本钱均衡方面推崇出色,约略以较低的本钱提供高效的做事。

  在编码评估方面,o3Mini模子展现出了出色的性能普及。在CodeForces的评估中,跟着想考时辰的加多,o3Mini模子的推崇握住普及,渐渐超越了o1Mini模子。

  在中位想考时辰下,o3Mini模子的性能以致优于o1模子,约略以大致一个数目级的更低本钱提供特地以致更好的代码性能。这意味着树立东谈主员不错在不加多过多本钱的情况下,得到更高效的编程缓助,提高树立着力,裁汰树立本钱。

  在数学才能测试中,o3Mini模子在2024年数据集上推崇出色。o3Mini低模子的性能与o1Mini特地,而o3Mini中位数模子则取得了比o1更好的性能。在处理诸如GPQA等贫瘠数据集时,o3Mini模子也能展现出一定的上风,完毕了接近即时反应的着力。

  此外,o3Mini模子支援函数调用、结构化输出、树立者音讯等一系列功能,与O1模子特地。在施行哄骗中,o3Mini模子在大多数评估中完毕了可比或更好的性能。

  在现场演示中,o3Mini模子的雄壮功能得到了直不雅展示。举例,在一项任务中,模子被条款使用Python完毕一个代码生成器和推论器。当启动运行该Python剧本后,模子胜仗启动了腹地做事器,并生成了包含文本框的用户界面。

  用户在文本框中输入编码苦求后,模子约略马上将苦求发送至API,并自动惩办任务,生成代码并保存至桌面,随后自动翻开终局推论代码。统共经由复杂且触及无数代码处理,但o3 Mini模子在低推理悉力花式下依然推崇出了极快的处理着力。

  固然o3的测评看上去推崇惊艳,但OpenAI应该不会很快面向各人上线这款新的超等推理模子。

  从12月20日开动,OpenAI允许安全盘问东谈主员不错注册打听o3 和 o3-mini的预览。OpenAI的又名发言东谈主称,OpenAI计较明岁首认真发布这些新的o3模子。