Gui - 搜索 News

5 天

AAAI 2026 Oral｜InfiGUI-G1模型来了，刷新GUI Grounding SOTA

随着多模态大语言模型（MLLM）的飞速发展，能够像人类一样通过视觉输入操作图形用户界面（GUI）的智能体（Agent）正逐渐成为现实。然而，在通往通用计算机控制的道路上，如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI ...

17 天

OPPO姜昱辰谈AI手机路线：GUI Agent是中间过渡形态，未来将走向A2A

在姜昱辰看来，未来AI手机将成为无处不在的个人助理。“不仅是说在手机上长出一个助理，是整个手机会变成用户无处不在的个人助理。用户使用手机或者刷视频过程当中，总有一个伙伴陪着你，然后给你提供你要的服务，我们认为这个过程中记忆是最重要的，有记忆，能执行，这个是我们整体对AI手机的判断。” ...

10 天

阿里开源AI手机的“灵魂”，GUI智能体2B到235B四个版本全，端云协同 ...

在更接近真实场景的MobileWorld测试集上，MAI-UI-235B-A22B整体成功率41.7%，比其他端到端模型高出20.8个百分点。在需要主动询问用户的任务上成功率37.5%，在需要调用MCP工具的任务上成功率51.1%，分别比之前最好的成绩高出32.1和18.7个百分点。

10 天

豆包手机引发海外巨头跟进，传谷歌等巨头秘密研发GUI Agent

事实上，豆包手机助手引发的热议，已经产生了连锁反应。据手机供应链业内人士爆料，Google、OpenAI等互联网巨头目前已将GUI ...

电子工程专辑

MCU的TOP15图形GUI库：选择最适合你的图形用户界面（一）

在嵌入式系统开发中，选择一个合适的图形用户界面（GUI）库是至关重要的。在屏幕上显示的时候，使用现成的图形库，这样开发人员就不需要弄清楚底层任务，例如如何绘制像素、线条、形状，如果再高级一点，则可以绘制某些对象，例如窗口、按钮等。

腾讯网

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V秒懂屏幕截图

IT之家 10 月 29 日消息，科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。

36氪

阶跃星辰发布全新AI Agent系列模型“Step-GUI”

36氪获悉，12月17日，阶跃星辰升级发布了全新的AI Agent系列模型“Step-GUI”，包括云端模型Step-GUI、首个面向GUI Agent的MCP协议，以及业内首个支持手机部署的开源端侧模型Step-GUI Edge。 36氪获悉，锋龙股份公告，公司控股股东浙江诚锋投资有限公司及实际控制人董剑 ...

第一财经