GPT-5.2 翻车?错!网友实测:它强得可怕,也无聊得要命作者 |陈晨制作 |网易的技术非常强大,但也很乏味。 Altman 在 Twitter 上庆祝 GPT-5.2“第一天就花费了 10 亿代币”,但在过去的三天里,评论部分发生了天翻地覆的变化。用户并不买账。面对GPT-5.2,大家最直观的感受不是它被颠覆,而是它被忽视。 “言语不等于友谊,指标不等于记忆。”网友的这句赞美之词,准确地表达了公众对这种“加强消防装备”的集体冷漠。 (AI生成的图像)​​但是事实真的有那么可怕吗?经过三天的密集测试以及对 Claude 4.5 和 Gemini 3 的并排比较,我得出了一个相互矛盾的结论。当然,你可能已经感到“无聊”,但这正是你变得更强所付出的代价。如此仓促的推出并不是基于精心策划,而是基于一种危机感。消息人士称,OpenAI 宣布它进入“红色警报”(代码红色)状态正是为了应对来自Google Gemini 3等竞争对手日益增加的压力,迫使其迅速推出。然而,这次“救火”更新并没有像 GPT-4 发布时那样引发社交媒体上的病毒式疯狂传播。 Reddit 和 X 上充斥着诸如“无聊”、“冷酷”和“没有太大变化”等负面评论。科技博主@melvynxdev甚至声称GPT 5.2的发布是一个巨大的失败。公众对 GPT 5.2 的“冷漠”与 OpenAI 声称的“迄今为止专家知识工作的最佳模型集”形成鲜明对比。就在OpenAI CEO Sam Altman透露“GPT-5.2推出API首日使用量突破1万亿代币,增长势头迅猛”之际,不少用户评论道:“言语不是友谊,指标不是记忆”、“首日就消耗了数十亿代币,但你有勇气加油”。这是竞争对手强加的“无用”更新吗?仔细阅读最新的专业评论和技术分析后,我们发现网上的批评者可能完全误解了5.2的设计目标。 1.了解“无聊”的真相:结果优先的产品哲学。高级产品经理 KARO 指出,如果你将 GPT 5.2 视为演示和搜索“掌声”的模型,你可能会感到失望。但如果 GPT 5.2 追求长期稳定性并认为它是一个需要实际部署的工具,那么 OpenAI 就用 GPT 5.2.e 的表达方式和模型的创造性范围做出了重要的产品决策,以换取可预测和可靠的行为。从有时令人惊叹到持续可靠 早期的人工智能模型可能在某一时刻工作得非常出色,但在下一时刻就会出现严重错误。在处理这种类型的不稳定、具有实际下游成本的任务(例如编写政策或监管文件或进行大规模研究报告)时,这是完全不可接受的。 (AI生成的图像)​​GPT 5.2的设计目标是保持持续的可靠性并降低故障频率。为了实现这一目标,它主要在三个方面进行了优化: · 遵守更严格的指令:模型可以更紧密地遵循用户的指令。 · 减少长时间对话中的脱轨:即使对话很长,该模型也可以让您保持在正轨上。 · 保持对任务的限制多步骤:即使任务进行了几十个步骤,您在步骤 1 中建立的规则也可以被记住。 (人工智能生成的图像)​​在密集的专业测试中,研究人员加载了 8,100 行原始研究数据,并设置了绝对的“绊线”规则。如果用户说“香蕉”,模型应该只显示“黄色”。 GPT 5.1 在大约 47 分钟后终于打破了规则,而 GPT 5.2 在持续语义引导和上下文压力 62 分钟后主动阻止了测试人员。它一直受到支持,直到这表明 GPT 5.2 非常有能力f 在复杂、非线性的对话中遵守规则。平衡动态推理和盈利能力 GPT 5.2 采用“动态调整推理深度”策略。一条简单的消息,要求用户首先选择“快速路线”。只有当不确定性超过ci这个阈值时,速度才会减慢,并且开始进行更深入的推论。此方法提供了最快、最经济的方式来回答您的问题。 GPT 5.2 的每个代币成本是 5.1 的 1.4 倍,每百万代币的进入成本为 1.75 美元,每百万代币的退出成本为 14 美元,但通过从最先进的蒸馏学习模型中提取良好习惯、缓存常用的文本片段以及采用优先考虑效率的推理路径,降低了单任务成本。例如,GPT-5.2 Pro 在 ARC-AGI-1 任务上的效率比一年前的预览版本高约 390 倍。减少幻觉:宁愿说“我不知道”,GPT 5.2施加更高的惩罚机制避免捏造参考资料、谎报工具使用情况或明显捏造未知事实。这意味着新模型更有可能支持“我不知道”并要求用户提供额外的来源或搜索权限。这种看似“冷酷”或“保守”的行为,却是依赖其准确性的专业用户信任的基础。 (AI 生成图像) 2. 终极专业对决:数据分析、演示和编码 著名 YouTube 博主 Elliott Prince 对三大模型进行了全面的基准测试。在复杂的专业任务上测试了三种主要模型:GPT 5.2、Claude Opus 4.5 和 Google Gemini,例如开发 SEO(搜索引擎优化)策略、生成 PPT 和编辑。代码。 1、SEO策略和数据分析:克劳德的“一击获胜”测试仪加载数千行关键词数据,创建完整的SEO主题权威策略。并需要一个模型来开发主题图。 · Claude Opus 4.5:性能最好、速度最快st 和“单次滑动获胜者”。使用 Claude Skills 自动应用品牌设置并生成带有品牌徽标、品牌颜色(紫色和柠檬绿)的专业表格,包括内容定位、搜索意图、推荐页面类型和优先级信息。 ・ChatGPT 5.2:思考约 15 分钟。最初的结果有点令人困惑,需要第二次测试和模板(单独的电子表格)来生成按内容主题分类的可用关键字组。这可能包括搜索量和关键字难度等专门数据。这表明 GPT 5.2 虽然可启动性更高,但最初的独立性不如 Opus。 · Google Gemini:效率低下,难以利用。用户必须手动复制粘贴才能对文本列进行操作,效率低下,体验很差。 (图片由AI生成,插图不代表实际效果) 总结:针对需要品牌化和终端化的任务在复杂数据分析结果的端到端交付方面,Claude Opus 4.5 是明显的赢家。 2. PPT生成:GPT 5.2的“史诗级”图表。为了满足客户对视觉策略的需求,测试人员要求三个模型分别生成一个PPT。 · ChatGPT 5.2:我花了 14 分钟才发现它,但结果是史诗般的。虽然设计非常令人满意,但我们能够生成动态动画图表,快速显示交通机会,并提供 30 至 45 天内可交付成果的详细路线图。 ・克劳德的工作 4.5:眨眼间完成。 PPT很好地应用了审稿人的品牌颜色(森林绿和石灰绿),并且非常具有可读性。出来了。但是,接下来的步骤不如 GPT 5.2 中详细。 · Google Gemini:使用 Python 脚本或纯文本输出时,性能再次较差。最终生成的 PPT 文本太多、图表太少,“看起来太像人工智能生成的东西”,并且很难导出到 Google 幻灯片以供其他人使用。r 编辑。 (图片由AI生成,插图不代表实际效果) 总结:三大模型在制作PPT方面相对停滞。 GPT 5.2 的图形深度和功能稍好一些。 Opus 4.5 再次因其品牌交付能力而脱颖而出。 3.编码能力:功能、速度、发布测试人员需要三个模型,每个模型扮演一个高级前端工人。工程师的作用是根据网站的屏幕截图重建专业设计的交互式网页。 · ChatGPT 5.2:比其他两个多花费 5 到 10 分钟。但最终的结果是功能上略有改进。除了实现评论者需要的所有共享、定价和其他按钮之外,我们还生成了完整的订单和预订表格,允许提供更详细的信息以增加深度和功能。 ・克劳德的工作 4.5:在短时间内完成。生成的页面可以是一个非常有用的实时网页年龄或登陆页面,因为它支持发布和生成“工件”以及复制链接。设计也很出色,具有悬停效果和货币兑换功能。 · Google Gemini:首次完成,但缺乏全屏发布和预览功能,需要调用外部HTML编辑器才能查看。它的交互性很少,页面上的按钮只是占位符,不能执行任何操作。 (AI生成的图像和插图可能不代表实际效果) 总结:GPT 5.2是最耗时的,但在创建完整表格方面提供了更多的深度和深度。这些功能使 GPT 5.2 略有优势。 4.创造力、愿景和背景之间的秘密战斗。对于生成电子邮件主题和打开链接的日常任务,我们的评估结果表明,所有模型的表现或多或少相同,没有模型显示出明显的创意优势。专家分析指出GPT 5.2牺牲创作空间活力换取可靠性。因此,鼓励用户根据自己的需要更改模型。对于“创意头脑风暴、写作或情绪基调”等任务,您可以选择 GPT 5.1。对于“编辑、合理化、陈述事实、编写规范或编码”等任务,您应该选择 GPT 5.2。请注意,虽然 GPT 5.1 的描述能力并不令人惊叹,但它在长期任务上表现良好,例如分析损益报告,并且可以连续运行两个小时以提供准确且结构良好的摘要。在图像生成方面,双子座出乎意料地获胜。测试人员的任务是根据简历生成有趣的星球大战主题职业信息图。上传,涉及视觉、分析和创意方面的结合·ChatGPT 5.2:我们在遵循内容政策时遇到了问题,导致图像质量低下,名称或文本拼写错误。·Google Gemini(纳米香蕉):它绝对碾压并获胜,生成设计精美的图形,并进行清晰准确的解释,甚至可以根据命令添加“全息效果”。 Claude Opus 4.5:没有内置成像功能,但尝试通过编写代码来解决问题。结果是一个交互式、可发布的网络信息图,绘制了星球大战时间线中的种族。历史,这表明了对编码的巨大适应性。 (图片为AI生成,不代表真实效果)最终,在纳米香蕉的支持下,双子座轻松获胜。当然,OpenAI本身也强调,GPT-5.2在图形推理和理解软件界面方面的错误率减半,表明视觉能力虽然有所提升,但在图像生成方面仍然存在不足。此外,在评估用户交互方面,Claude Opus 4.5 的上下文窗口功能甚至更好。随着讨论的继续,Opus 4.5 开始压缩旧版本的内容更新,使其可用时间更长,从而使用户免去随着时间的推移开始新聊天的麻烦。此外,Opus 4.5 培训包括我们内部所说的“灵魂文档”。本文档阐明了 Anthropic 的使命,即开发安全、有用且易于理解的人工智能,同时防止即时口头攻击,并解释了为什么 Opus 在安全性和合规性方面表现如此出色。 4、总结:新时代的模型定位与快速艺术字 GPT 5.2的发布表明,人工智能巨头之间的竞争已经从追求“更高的基准分数”转向追求务实的“信任、安全、速度、成本”产品策略。模型的进步越来越专业化。 (AI生成图像) ・GPT 5.2可以说是一款值得信赖的旗舰产品。它具有卓越的约束保留和更严格的指令合规性。适合内容编辑、规范制定、长文章分析、详细功能等任务国家编程。 · Claude Opus 4.5 是品牌和数据方面的大师。它速度很快,并且具有高度优化的上下文窗口,可一次性获胜。非常适合需要复杂数据分析、创意写作和品牌推广结果的任务。 Google Gemini 在视觉和效率方面具有潜力,擅长生成图像和信息图表、提取 PDF 数据等任务。良好的视觉能力,但执行专业任务的质量较差。 (AI生成的图像)​​那么GPT-5.2值得使用吗?答案很简单。严格来说,如果你需要“翻译”,请毫不犹豫地接受。如果你想要一个聪明的“创造者”,转身去找克劳德吧。 OpenAI 并没有输,它只是改变了轨迹。作为用户,是时候超越“只是看看”的心态,开始思考如何利用日益专业的“数字劳动力”。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注