随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。然而,在通往通用计算机控制的道路上,如何让模型精准地将自然语言指令对应到屏幕上的具体元素 —— 即 GUI ...
事实上,豆包手机助手引发的热议,已经产生了连锁反应。据手机供应链业内人士爆料,Google、OpenAI等互联网巨头目前已将GUI ...
在12月初,豆包与中兴旗下的努比亚共同推出了AI手机“努比亚M153”,这一举动迅速成为互联网和AI领域的热议焦点。豆包手机的最大亮点在于其具备在用户授权下自动操作手机的能力,能够高效完成复杂的长链路任务。这一创新不仅引发了国内的广泛讨论,也让海外市场倍感震撼。
在更接近真实场景的MobileWorld测试集上,MAI-UI-235B-A22B整体成功率41.7%,比其他端到端模型高出20.8个百分点。在需要主动询问用户的任务上成功率37.5%,在需要调用MCP工具的任务上成功率51.1%,分别比之前最好的成绩高出32.1和18.7个百分点。
DoNews12月17日消息,12月17日,阶跃星辰升级发布了全新的 AI Agent 系列模型「Step-GUI」,包括云端模型 Step-GUI、首个面向 GUI Agent 的 MCP 协议,以及业内首个支持手机部署的开源端侧模型 Step-GUI Edge。「Step-GUI」通过端云协同的方案,让隐私边界可知、可控,同时极大程度拓展 GUI Agent ...
近日,字节跳动与努比亚联合推出的“豆包AI手机”引发关注。该手机通过GUI技术实现跨App操作,但也引发隐私安全担忧。12月22日,快手平台遭黑灰产攻击,加剧了对AI技术安全性的讨论。
然而,在这种技术路径下,AI助手可以直接绕过银行、淘宝等App的沙箱隔离机制(原本用于防止应用越权、保护系统安全的设计)直接读取聊天记录、验证码、账户信息等敏感数据。这条看似高效的技术捷径,迅速引发了关于数据授权、隐私保护与系统安全的讨论。
在嵌入式系统开发中,选择一个合适的图形用户界面(GUI)库是至关重要的。在屏幕上显示的时候,使用现成的图形库,这样开发人员就不需要弄清楚底层任务,例如如何绘制像素、线条、形状,如果再高级一点,则可以绘制某些对象,例如窗口、按钮等。
8 天on MSN
通义实验室开源MAI-UI模型:可跨应用操作 提升任务执行效率
通义实验室多模态交互团队近日正式对外发布并开源了一款名为MAI-UI的通用GUI智能体基座模型。这款模型的核心能力在于能够精准理解各类屏幕界面内容,并依据指令执行相应操作,从而完成跨应用、多步骤的复杂任务。例如,在出行场景中,它可以快速查询车票信息; ...
近日,OPPO ColorOS 智慧产品研发总监姜昱辰在接受媒体采访时,阐述了 OPPO 在 AI 手机领域的发展路线,强调 GUI Agent 是当前技术的过渡形态未来将更倾向于 Agent to Agent(A2A)模式。此番言论恰逢字节跳动与努比亚联合推出的 “豆包 AI 手机” 引发广泛关注,后者通过语音指令实现跨 App 自动操作,成为行业热点。
13 天on MSN
OPPO姜昱辰:AI手机GUI Agent过渡,未来A2A模式引领新方向
OPPO ColorOS智慧产品研发负责人姜昱辰在近期访谈中,系统阐释了该公司对AI手机技术演进方向的判断。他特别指出,当前以图形用户界面交互为主的GUI Agent模式属于过渡阶段,未来将逐步向智能体间直接协作的Agent to ...
你好,有的。现有回答里提到 Firefox OS 的是符合的,提 Chrome OS 是不符合的。 Firefox OS 主要有三个层: Gonk:内核、硬件抽象、驱动,和 Web 技术无关。Gecko:渲染引擎,也就是浏览器内核。在 Firefox OS 上 Gecko 有一定程度的定制,例如优化分配,预加载以让应用快速打开。Firefox ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果