可独立工作7小时以上!OpenAI升级Codex代理,首份ChatGPT使用研究显示52%为女性♀️(可以独立工作的职业)

文丨丁灵波

许久没有大动作的OpenAI,今天迎来了一波产品更新,将其AI编码代理Codex正式升级到GPT-5版本。

该公司表示,新模型GPT-5-Codex的“思考”时间比之前的模型更加动态,完成一项编码任务所需的时间可从几秒到七个小时不等,因此,它既擅长快速的交互式会话,也能够独立完成冗长复杂的任务,其代码审查功能还可以在产品发布之前发现关键错误。

Codex可以在涉及开发的任何平台运行——终端或IDE、网页、GitHub甚至ChatGPT iOS应用。

OpenAI官方表示,GPT-5-Codex在SWE-bench Verified上的表现优于GPT-5,实现了大型成熟存储库的代码重构任务性能的新基准。

强化AI编码市场竞争

此次更新是OpenAI努力提升Codex在AI编码代理市场竞争力的一部分,其竞争对手都实力不俗,例如Claude Code、Anysphere的Cursor和微软的GitHub Copilot、谷歌的Jules等等。

由于用户需求旺盛,AI编码工具市场正在变得更加拥挤也开始加速洗牌。Cursor披露的年度经常性收入(ARR)在2025年初超过了5亿美元💵,而类似的代码编辑器Windsurf则遭遇了一场混乱的收购,导致其团队被谷歌和Cognition两家公司瓜分。

在国内,通义灵码、文心快码、腾讯CodeBuddy、字节跳动的Trae等等,深度适配各自的技术生态,逐步形成了与国际工具差异化的竞争力。

GPT‑5-Codex是GPT‑5的一个全新改进版本,专门针对代理软件工程进行了深度优化,聚焦解决更多实际工程任务,例如从头构建完整开发项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。

GPT‑5-Codex会根据任务的复杂程度,更动态地调整其思考时间。

该模型结合了编码代理的两项基本技能:在交互式会话中与开发者配对,以及在较长的任务上持续、独立地执行。这意味着Codex在处理小型、定义明确的请求或与它聊天时会感觉更敏捷,并且在处理大型重构等复杂任务时也能工作更长时间。

在测试中,GPT‑5-Codex能够独立处理大型复杂任务超过7小时,不断迭代实现,修复测试错误,并最终交付成功的实现。

在OpenAI员工内部评估中,对于按模型生成的token(包括隐藏推理和最终输出)排序的后10%的用户轮次,GPT-5-Codex使用的token量比GPT-5少93.7%,但对于前10%的用户轮次,GPT-5-Codex的思考时间也更长,其推理、编辑和测试代码以及迭代的时间是GPT-5的两倍。

Sam Altman发帖透露,GPT‑5-Codex一上线就被开发者热捧,已经占据了Codex流量的约40%,今天某个时候应该会占到大多数。

比人类程序员审查还“严谨”

为了使Codex成为更好的AI程序员搭档,OpenAI还针对Codex CLI和Codex IDE等进行了扩展改进。

Codex CLI命令行界面:CLI现已围绕Agentic工作流重新构建,允许开发者直接附加线框图或屏幕截图等图像、共享上下文,并使用内置待办事项列表跟踪进度,还包含网页搜索和MCP等用于连接外部系统的工具,从而整体上提高了工具使用准确性;

Codex IDE扩展:该扩展可在VS Code、Cursor及类似分支中使用,使开发人员能够预览本地更改并在编辑器中使用Codex编辑代码;

Codex云环境:OpenAI在幕后改进了部署基础设施,将平均完成时间缩短了90%;

以及包含经过训练的代码审查功能,用于发现关键缺陷,在GitHub代码库中启用Codex后,它会随着拉取请求的进展自动审查、标记问题,甚至在同一审查线程内实施建议的修复方案,开发者还可以请求专门的审查,例如检查安全漏洞,官方称,即使是严谨的人工审查人员也未必总是能做到这种程度的细致工作。

女性♀️用户过半,七成使用与工作无关

除了技术产品的更新,OpenAI今天还推出了迄今为止最大规模的消费者ChatGPT使用情况研究,这项研究是美国国家经济研究局(NBER)的一份调研论文,由OpenAI经济研究团队和哈佛大学经济学家戴维·戴明共同撰写。

ChatGPT现在每周有超7亿活跃用户,该研究基于150万次对话进行了大规模隐私保护分析,追踪了自ChatGPT三年前推出以来消费者使用情况的变化,这是迄今为止发布的关于消费者实际使用ChatGPT的最全面研究。

截至2025年中,ChatGPT的早期性别差距已大幅缩小。ChatGPT于2022年底推出时,每周活跃的用户中约80%是男性♂️,到2025年7月,女性♀️命名用户比例已上升至一半以上(52.4%),而且,全球成年用户覆盖率已达到约10%。

ChatGPT的经济影响力已渗透工作和个人生活,尽管人们都在谈论AI可能会彻底改变职场,但数据显示仅约30%的用户使用与工作相关,约70%与工作无关。

从地域来看,ChatGPT在中低收入国家尤其增长迅速,截至2025年5月,ChatGPT在最低收入国家的采用增长率是最高收入国家的4倍以上。

其中,“实用指导”(Practical Guidance)、“信息查询”(Seeking Information)和 “内容创作”(Writing)是三大最常见应用场景,合计占所有对话的近80%。

越来越多的人将ChatGPT用作信息搜索引擎,2024年6月,约有14%的ChatGPT对话被标记为与“信息查询”相关,到2025年6月,这一数字上升至24.4%。

使用模式也分为从“询问”、“执行”和“表达”三个方面,大约一半的消息(49%)是询问,执行占使用量的40%,表达占使用量的11%,通常涉及个人反思、知识探索和娱乐,ChatGPT有助于提高用户判断力和生产力,尤其是在知识密集型工作中。

这份用户研究凸显了ChatGPT的双重角色,它既是生产力工具,也是用户日常生活中的高频AI助手,也见证了AI在人们的工作和日常生活中产生越来越重要的实际经济价值。

-END-

如果您有什么想说的,欢迎在评论区留言讨论!

投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。

【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——

添加头部科技晶总微信!Toptech007!

特别声明:[可独立工作7小时以上!OpenAI升级Codex代理,首份ChatGPT使用研究显示52%为女性♀️(可以独立工作的职业)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

『刘宇宁』为陈星旭打抱不平,男二代旭上位,拉踩男一号是很脏的方式(『刘宇宁』陈星旭综艺)

在剧集取得热度后,女主、导演和男二号都因此受益,资源和人气不断上升,而陈星旭却成了众人嘲笑的对象。他也承认自己在选择剧本方面下了很大功夫,笑称男主角🎭️的人设太过重要,以至于有些剧本中的男二号或男三号人设太好,看…

『刘宇宁』为陈星旭打抱不平,男二代旭上位,拉踩男一号是很脏的方式(『刘宇宁』陈星旭综艺)

韩国悬疑佳作《姐妹的诱惑》:揭秘姐妹情谊表象下的爱恨纠葛与真相(韩国悬疑高分)

韩国电影一直以来都以其对人性幽微之处的深刻洞察和跌宕起伏的叙事手法而著称,《姐妹的诱惑》便是一部典型的融合了悬疑、伦理与情感纠葛的心理剧情片。正是因为这种真实性,才让观众在观影过程中产生强烈的共鸣与反思:当我…

韩国悬疑佳作《<strong>姐妹的诱惑</strong>》:揭秘姐妹情谊表象下的爱恨纠葛与真相(韩国悬疑高分)

中国第四艘航母究竟走到哪一步 稳中求进的“硬核浪漫”(中国第四艘航母最新进展)

军迷们的“航母侦探游戏”又有新线索了

中国第四艘航母究竟走到哪一步 稳中求进的“硬核浪漫”(中国第四艘航母最新进展)

大润发卡2026:该怎么选最合适的大润发超市卡?(大润发卡1000元全国通用吗)

随着新零售浪潮来袭,大润发超市卡愈发受关注。本文详细分析如何挑选合适的大润发卡,解读不同预算与场景下的配置要点,帮您避开常见陷阱,最大化优惠力度。无论线上还是线下购物,掌握选卡技巧,让您的每一次消费都物有所值。

大润发卡2026:该怎么选最合适的大润发超市卡?(大润发卡1000元全国通用吗)

养子女无赡养义务?非法拘禁如何界定?追《人之初》解案件谜团(子女无赡养能力)

热播剧《人之初》以一桩深埋20年的迷案为开端,讲述了苦苦寻亲的高风与富家女吴飞飞联手解开穿越两个时空的惊人秘密的故事。此处的利害关系人,包括被申请宣告失踪或宣告死亡人的配偶、父母、子女、兄弟姐妹、祖父母、外…

养子女无赡养义务?非法拘禁如何界定?追《<strong>人之初</strong>》解案件谜团(子女无赡养能力)