卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟『Windows』,预测下一帧屏幕图像

一水 发自 凹非寺

量子位 | 公众号 QbitAI

疯狂,太疯狂了~

大神卡帕西预测的 「下一代GUI系统」这就水灵灵地实现了?!

玩法相当easy,当你移动鼠标、点击图标或敲键盘时,这个完全由神经网络驱动的操作系统就和咱们平时的电脑一样,能在屏幕上实时显示对应的图形界面。

今日霍州(www.jrhz.info)©️

就是说,AI现在能完全模拟『Windows』,直接预测下一帧屏幕图像

今日霍州(www.jrhz.info)©️

事实上,卡帕西在今年5月就预言了一波“AI时代的图形用户界面长啥样”。

在他看来,如今和『大语言模型』(LLM)聊天就像在使用80年代的电脑终端,还没有用上图形用户界面(GUI)。

而在未来,随着AI能力逐渐扩展,GUI将是为每个用户量身打造的流动(fluid)、魔幻(magical)、可交互(ephemeral)的2D画布,就像你专属的操作系统,实时重绘、实时响应

jrhz.info

今日霍州(www.jrhz.info)©️

受此启发,5位来自滑铁卢大学和加拿大国家研究委员会的研究人员提出NeuralOS,并打造出了一个可试玩的初版演示demo。

这一最新成果为构建完全自适应的生成式神经接口迈出了重要一步,有望应用于下一代人机交互系统。

那么问题来了——

NeuralOS是靠什么模拟『Windows』的呢?

关键法宝:RNN+渲染器

据论文介绍,NeuralOS能模拟操作系统界面,靠的是两个核心“技能模块”:

  • 循环神经网络(RNN):用于跟踪计算机的状态变化

  • 基于扩散的神经渲染器(Renderer):负责生成屏幕图像

循环神经网络(RNN):用于跟踪计算机的状态变化

基于扩散的神经渲染器(Renderer):负责生成屏幕图像

今日霍州(www.jrhz.info)©️

具体而言,不管用户操作多复杂(如现在打开了哪些软件、鼠标停在哪个位置、光标是箭头还是输入状态等),RNN模块都能跟着“记”下来,保证后续反应不脱节。

然后Renderer渲染器根据前面记下的状态和用户操作(如点击了“浏览器”图标),直接生成对应的屏幕画面(包括窗口弹出、图标变色、菜单展开这些视觉变化)。

原理听起来是不是很简单?但为了训练NeuralOS,团队可是下了一番功夫。

为了让它学会模拟操作系统,他们给它准备了一大份“学习材料”——全是Ubuntu XFCE系统(Linux轻量级桌面系统)的操作录像。

内容主要分为两类:

一类是随机生成的用户交互。比如乱点鼠标、随便拖动窗口、无规律敲击键盘,相当于让AI见识“各种可能性”,避免只认固定操作。

另一类是由AI Agent生成的真实交互。这里让AI Agent来模拟人类的正常行为,比如打开浏览器、输入文字、关闭窗口等,让AI学习“符合常理的操作逻辑”。

然后经过RNN预训练——RNN+Renderer联合训练——计划采样——将RNN输入的上下文序列加长这一训练流程后,NeuralOS终于学会了根据之前的帧和用户输入(鼠标、键盘)来预测下一帧屏幕图像。

今日霍州(www.jrhz.info)©️

最后,为了检验NeuralOS真实效果如何,团队选择通过模拟用户操作来测试模型

得出的结论如下:

  • 画面逼真:连续操作时,它生成的界面变化 (如从桌面到打开文件夹,再到关闭窗口)看起来和真系统几乎一样。

  • 鼠标响应准:不管是移动鼠标让光标跟着动,还是点击图标触发反应 (如点“关机”按钮出现确认窗口),它都能准确对应。

  • 状态转换稳:像启动应用、切换窗口这类“系统状态变化”,它也能可靠模拟 (如点“计算器” 图标,就会出现计算器窗口,不会乱出别的东西)。

画面逼真:连续操作时,它生成的界面变化 (如从桌面到打开文件夹,再到关闭窗口)看起来和真系统几乎一样。

鼠标响应准:不管是移动鼠标让光标跟着动,还是点击图标触发反应 (如点“关机”按钮出现确认窗口),它都能准确对应。

状态转换稳:像启动应用、切换窗口这类“系统状态变化”,它也能可靠模拟 (如点“计算器” 图标,就会出现计算器窗口,不会乱出别的东西)。

但它目前对键盘的精细操作处理不好,尤其是快速打字时,它可能跟不上每个按键的实时显示,或者出现字母顺序错乱的情况。

下图展示了模型预测状态与真实状态之间的对应关系,主对角线区域有明显高亮,说明模型大多数预测是准确的;但也存在一定比例的偏移预测,说明个别状态存在混淆。

今日霍州(www.jrhz.info)©️

背后团队

NeuralOS论文作者一共5人,其中4位均为华人面孔。

今日霍州(www.jrhz.info)©️

Luke Rivard,目前正在滑铁卢大学计算机科学系读研,研究方向为自然语言处理(NLP)。

这次研究是跟着他导师Yuntian Deng一起合作的。

今日霍州(www.jrhz.info)©️

Sun Sun,目前是加拿大国家研究委员会研究员,同时也是滑铁卢大学兼职教授。

其研究方向为优化、机器学习以及深度学习应用。

今日霍州(www.jrhz.info)©️

Hongyu Guo,本科毕业于上海交大,目前是加拿大国家研究委员会数字技术研究中心的高级研究员。

他曾在渥太华大学获得CS博士学位,目前任该校电气工程与计算机科学学院兼职教授。

其论文多发表于ICML、ICLR、AAAI、IJCAI、ACL、EMNLP、IEEE等顶会期刊,谷歌学术论文总引用量达5000+。

今日霍州(www.jrhz.info)©️

陈文虎(Wenhu Chen),目前是滑铁卢大学计算机科学助理教授。

其研究方向为推理、信息检索、基准与评估等,2022年获得了加拿大的CIFAR AI主席奖,该奖主要由加拿大政府授予在AI领域表现突出的世界顶尖人才。

从2025年起,他还兼职Google Deepmind的研究科学家。

今日霍州(www.jrhz.info)©️

Yuntian Deng,目前是滑铁卢大学助理教授,也是『英伟达』客座教授。

曾获得哈佛大学博士学位,研究兴趣为自然语言处理和机器学习。

今日霍州(www.jrhz.info)©️

自NeuralOS论文发表后,他们还提供了一个在线体验版本,不过每个用户的操作演示(session)运行时,后台要专门分配一块H100显卡才能跑起来。

从使用指南来看,具体操作手法如下:

  • 将鼠标移入蓝色框内,以与NeuralOS进行交互;

  • 点击(左键或右键),可执行点击操作;

  • 使用键盘输入,可在模拟环境中打字;

  • 调整采样步数,以平衡画面质量与生成速度;

  • 切换“Use RNN”开关,在RNN模式与扩散模式之间切换;

  • 切换“Auto Input”开关,启用自动帧生成功能,即当你将鼠标移入画布并保持静止2秒后自动开始,每0.5秒生成一帧。

将鼠标移入蓝色框内,以与NeuralOS进行交互;

点击(左键或右键),可执行点击操作;

使用键盘输入,可在模拟环境中打字;

调整采样步数,以平衡画面质量与生成速度;

切换“Use RNN”开关,在RNN模式与扩散模式之间切换;

切换“Auto Input”开关,启用自动帧生成功能,即当你将鼠标移入画布并保持静止2秒后自动开始,每0.5秒生成一帧。

连作者本人都表示,本来以为只是一个小demo,但没想到来了太多用户,以至于系统运行缓慢。

不过随着代码开源,一切都还有进一步优化的空间。

虽然现在看起来很粗糙,但它展示了一个新可能——未来的“操作系统”不一定是死板的按钮,而是可以被AI动态“生成”的。

虽然现在看起来很粗糙,但它展示了一个新可能——未来的“操作系统”不一定是死板的按钮,而是可以被AI动态“生成”的。

在线体验:

https://neural-os.com/

论文:

https://arxiv.org/abs/2507.08800

参考链接:

[3]https://huggingface.co/papers/2507.08800

特别声明:[卡帕西预言成真!华人团队开源全AI操作系统:神经网络模拟『Windows』,预测下一帧屏幕图像] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

北京前门的年味儿已上线 光影交织喜迎春(前门附近老北京小吃)

新年之际,北京前门大街焕然一新。夜幕降临,满街的花灯亮起,中国结和彩灯将整条街道装扮成喜庆的海洋,瞬间切换成“过年模式”,充满了烟火气和仪式感。为了让大家更好地体验前门大街的年味,这里整理了一条打卡路线

北京前门的年味儿已上线 光影交织喜迎春(前门附近老北京小吃)

前新闻主播蔡雪莹庆39岁生日:嫁上市公司太子爷后,依旧烟火气满满(主持人蔡)

很多人以为主播转型无非是做主持或演艺,她却选了公关这条路。偶尔接些主持工作,在ViuTV旅游节目里出现过,也在《寒战II》客串过几秒。 偶尔被媒体拍到,也是素颜逛商场,或带着孩子在公园玩。当年在镜头前播报他人…

前新闻主播蔡雪莹庆39岁生日:嫁上市公司太子爷后,依旧烟火气满满(主持人蔡)

齐启新程 共赢未来,淄博移动举办行业生态合作伙伴座谈会(齐力共赢)

淄博移动公司积极融入地方发展大局,在5G网络、算力基础设施、数字技术应用等领域持续深耕,下一步将加大资源投入,发挥网络、技术、服务优势,聚焦行业『数字化』需求,与合作伙伴打造场景化创新解决方案,完善合作机制,共同…

齐启新程 共赢未来,淄博移动举办行业生态合作伙伴座谈会(齐力共赢)

2026年全球ADCP行业品牌白皮书(2025年adc)

六、ADCP行业近两年(2024-2025年)发展现状与趋势2024-2025年,全球与中国ADCP行业呈现“规模稳步增长、技术加速迭代、应用持续拓展、竞争格局优化”态势,受政策、需求、技术多重驱动进入高质…

2026年全球ADCP行业品牌白皮书(2025年adc)

锂电铜箔优势巩固!嘉元科技发力固态电池负极、光模块(铜箔 锂电)

被入股公司专注于超薄锂金属负极材料的研发与生产,核心产品为超薄锂箔复合材料,主要应用于固态电池领域。 除了发力固态电池负极外,嘉元科技2025年下半年,还曾斥资5亿元以“股权转让+增资”组合方式获得光模块公司…

锂电铜箔优势巩固!嘉元科技发力固态电池负极、光模块(铜箔 锂电)