增值

OpenAI o1发布,回答之前会先像人类一样“思考”

  • 2024年 9月 13日
  • 阅读数:1268

北京时间9月13号凌晨1点左右,OpenAI毫无征兆的公布了他们最新一代模型:o1 preview(预览版)、o1 mini。此次公布的OpenAI o1模型最早可以追溯到代号为“Q*”的一款流传的内部模型,同时它也是前几天传得沸沸扬扬“Strawberry”的最早版本。

我们先回顾一下之前新闻报道中对“Strawberry”的描述:

在处理编程和数学难题方面,Strawberry 展现出了超越其他高端生成式AI模型的能力,包括OpenAI自家的GPT-4o。它还成功规避了那些常见于其他模型的推理错误。然而据透露,Strawberry的运行速度极为缓慢,且并非多模态版本。据一些消息来源称,该模型处理一个问题的耗时介于10至20秒之间。

从OpenAI官网的信息来看,OpenAI o1的特点可以总结为:更大、更强、更慢、更贵。

1. o1 核心特点:回应前花费更多时间思考,它们能通过复杂的任务并解决科学、编程和数学领域比以往模型更难的问题。比如,在一个让众多AI大模型犯错的问题:“单词Strawberry里面有几个r”,GPT 4o回答错误,那是因为像这样的模型是为了处理文本而不是字符而构建的。

与 gpt 4 不同的是,它在输出答案之前开始思考这个问题,现在它输出答案,单词Strawberry中有三个 r,这才是正确答案。

这个例子表明,即使对于看似无关的计数问题也有推理,内置模块可以帮助避免错误。

2. 版本:与之前不一样的是,OpenAI将计数器重置为 1,并将这个系列命名为“OpenAI o1”,且本次只是发布一个预览版本(preview),并未发布正式版本。

3. 基准性能:下一模型更新在物理、化学和生物学的挑战性基准任务上表现得与博士生相似。

在2024年美国数学邀请赛(AIME)中,模型o1的准确率最高,达到了83.3%,其次是gpt4o,准确率为80%。在CodeForces编程竞赛中o1模型的表现最好,百分位数为89.0%,其次是gpt4o,百分位数为62.0%。在GPQA Diamond测试中o1模型得分最高,为78.3%,其次是gpt4o,得分为78.0%,把人类博士67.9%的准确率无情超越。

其中,2024年美国数学邀请赛(AIME)是属于美国数学竞赛中仅次于奥林匹克数学竞赛的比赛。

同时,o1模型在多个领域和测试中都展现出了明显优于gpt4o的性能,无论是在科学问题、机器学习基准测试,还是在数理化生、法律经济各种专业考试中。

  1. 是否有多模态:作为早期模型,它还没有像GPT 4o一样拥有浏览网络获取信息和上传文件、图片的特性。

5. 价格如何:ChatGPT Plus 和团队用户现在可以开始在 ChatGPT 中访问 o1 模型。在模型选择器中,用户可以手动选择 o1-preview 和 o1-mini。每周的配额为 o1-preview 30 条消息,o1-mini 为 50 条消息。ChatGPT 企业版和教育用户将于下周开始访问两个模型。符合条件的开发者可以开始使用 API 原型设计,今天就可以使用两个模型,每分钟的速率限制为 20 次。OpenAI还计划将 o1-mini 访问权限带给所有 ChatGPTFree 用户。

6. 安全性:OpenAI的o1-preview和o1-mini通过链式思维推理显著提高了模型在安全性和鲁棒性方面的表现。(详情:https://openai.com/index/openai-o1-system-card/)