最近,AI大模型领域的竞争格外激烈。Google和OpenAI这两家行业巨头,几乎把产品迭代更新的速度加快到了每周一次。常常是上一代模型还没在市场上站稳脚跟,新一代的模型就已经发布,双方正面对决不断。
Google出击:Gemini 3 Flash“性价比”称王
北京时间12月18日凌晨,Google宣布Gemini 3 Flash正式登场。这是Gemini 3系列里速度最快、性价比最高的模型。而且这已经是Google在一个月内对大模型产品线进行的第四次实质性更新,外界普遍认为这是对OpenAI的一次“精准打击”。
其实,回顾11月,Google和OpenAI几乎同时推出了各自的旗舰模型Gemini 3和GPT – 5.1。之后,Gemini 3 Pro在多项基准测试中表现出色,大幅超越了Gemini 2.5 Pro、GPT – 5.1以及Claude Sonnet 4.5等现有旗舰模型,迅速积累了良好的口碑。
OpenAI反击:GPT – 5.2成职场“卷王”
面对Google的攻势,OpenAI也不甘落后。在GPT – 5.1与Gemini 3的正面交锋中处于下风后,OpenAI迅速进入应急状态。据外媒报道,12月2日,OpenAI CEO山姆·奥特曼在给员工的内部备忘录中表明,公司进入了“红色代码(Code Red)”紧急状态。这使得OpenAI的资源和注意力都集中到了核心产品ChatGPT上。OpenAI应用总监菲吉·西莫证实,这一“警报”加快了GPT – 5.2的发布进程。
仅仅一周后,在OpenAI十周年之际,GPT – 5.2快速上线,并一次性推出了Instant、Thinking、Pro三个版本。从官方公布的核心基准测试来看,GPT – 5.2表现强劲。在多项对比测试中,GPT – 5.2 Thinking几乎在各个方面都排名第一,这让Gemini 3 Pro刚刚建立不到一个月的领先优势再次被打破。
GPT – 5.2:或成打工人“劲敌”
与复杂的跑分体系不同,ChatGPT 5.2最值得关注的是GDPval评测体系。这个体系不测试模型做题的能力,而是直接衡量它完成真实知识型工作任务的能力。该评测涵盖44个职业,涉及对美国GDP贡献最高的9个核心行业,要求模型生成像销售PPT、会计财务表格、急诊科排班表、制造业数据图表甚至短视频内容等真实可交付的工作成果,就像是把模型直接放到职场中。
根据人类专家的盲评结果,在高难度知识型工作任务中,GPT – 5.2 Thinking有70.7%的任务表现优于或等同于行业顶尖专家。在效率上,它完成同类任务的速度约为人类专家的3倍,而综合成本仅为人类的1%左右。在金融场景的“初级投行分析师”电子表格建模测试中,GPT – 5.2 Thinking综合得分达到68.4%,相比GPT – 5.1 Thinking的59.1%有显著提升,成为OpenAI在该类任务中表现最好的模型。综合来看,在GDPval覆盖的知识型工作任务中,GPT – 5.2 Thinking“赢过或打平行业专家”的比例达到70.9%,而上一代GPT – 5 Thinking仅为38.8%。
GPT – 5.2的产品分层也很清晰。Thinking版本适合重度专业工作,Instant版本更适合日常职场应用,Pro版本则在科研和复杂系统设计方面表现出色。也正因为如此,GPT – 5.2 Thinking被外界调侃为开始和打工人“抢工作”的模型。
用户质疑:GPT – 5.2表现遭挑战
不过,两家巨头这种“赶工”式的发布节奏也引发了市场的不满。有网友发现,GPT – 5.2在SimpleBench上的得分低于差不多一年前发布的Claude Sonnet 3.7,GPT – 5.2 Pro的表现也只是勉强超过GPT – 5。前AWS与Google高管Bindu Reddy在社交平台指出,GPT – 5.2在LiveBench上的得分低于Opus 4.5和Gemini 3.0,并且它在token成本和消耗数量上比5.1多很多,目前从5.1升级可能并不值得。
Gemini 3 Flash:主打“性价比”出击
GPT – 5.2与Google的Gemini 3 Flash正面竞争。如果说GPT – 5.2强调“专业性”,那么Gemini 3 Flash则突出“性价比”。这不是简单的价格便宜,而是对“性能、成本、规模”三者关系的重新构建。
Google CEO桑达尔·皮查伊在官方博客中表示,Gemini 3 Flash在性能和效率上都突破了“帕累托极限”。它的综合性能超过上一代旗舰模型Gemini 2.5 Pro,推理速度提升约3倍,价格却大幅降低。皮查伊说:“Gemini 3 Flash证明,速度和规模无须以牺牲智能为代价。”
从评测结果看,这并非虚言。根据Imarena.ai的数据,目前Gemini 3 Flash在文本、图像和编程领域排名前5,数学和创意写作类别排名第2,是性价比最高的前沿模型,输入仅0.5美元/百万Tokens,输出3美元/百万Tokens。相比之下,Claude Sonnet 4.5的输出是15美元/百万Tokens,GPT – 5.2的输出是14美元/百万Tokens,约为Gemini 3 Flash定价的5倍。
Gemini产品管理高级总监Tulsee Doshi称,谷歌将Gemini 3 Flash定位为“老黄牛”式模型。它保持了接近Gemini 3 Pro的推理能力,运行速度是Gemini 2.5 Pro的三倍,成本仅为Gemini 3 Pro的四分之一。
智能体:未来竞争焦点
OpenAI和Google近期频繁更新产品,短期内胜负难分。但从产品设计、宣传重点和落地路径来看,大模型发展的下一个趋势逐渐清晰,即智能体。
无论是ChatGPT 5.2宣传中强调的“专攻智能体”,还是Gemini 3 Flash将“高性能”应用于大规模场景,最终都指向智能体。AI基础大模型的竞争,已从“云端模型能力”延伸到“终端与系统层”。
在终端方面,Gemini 3已取代传统Google Assistant,成为Android生态的核心。在最新的Android Auto更新中,用户可以通过自然语言指令完成复杂操作。在办公场景,Google尝试将“系统能力”拓展到Workspace,用户可以基于历史资料直接提出分析型问题并生成结果,提高了企业用户的使用黏性。
企业市场也有了新变化。Salesforce创始人Marc Benioff表示,基于Gemini 3的表现,他和企业内部的AI首选已从ChatGPT转向Gemini。随后,Salesforce宣布将Gemini纳入Agentforce 360平台,这是Google在企业SaaS领域的重要突破。
面对Google的垂直整合,OpenAI选择与科技巨头合作扩张。在消费级市场,预计2025年底至2026年初推出的iOS 26将深度整合GPT – 5.1,涉及系统级视觉智能。在企业与办公领域,Microsoft仍是OpenAI的重要支撑,通过Windows 11和Microsoft 365,微软将GPT – 5.1推向企业核心流程。
回顾过去三年,行业竞争最初围绕对话自然度和知识广度。但到2025年,企业对AI的需求转向复杂问题解决、跨工具协作和自主任务执行,竞争维度发生了根本变化。真正的竞争不在于谁更会聊天,而在于谁能高效、稳定地完成任务。Gemini 3和ChatGPT 5.2正处于这场竞争的关键节点。
