基于GPT-4V,一句话就可以在多个应用中无缝切换,完成复杂任务。整个过程无需人为干预,其执行成功率和效率是GPT-4的两倍,GPT-3.5的四倍。
比如,删除PPT演示文稿上的所有备注。
几个简单步骤就可完成。
还有像利用多个来源文本,比如word文档、图像文本内容,撰写电子邮件。
网友表示:这才是Windows级别应有的创新能力
第一个Windows Agent来了
这样一个智能体叫做UFO,全名“UI-Focused”,是一个专为Windows OS(操作系统)交互设计、面向用户界面(UI)的智能体框架,可以在单个或者多个应用程序中操作,由MSRA、微软AI与应用研究团队等共同打造。
用户就可以通过自然语言指令,来操作App的用户界面。
据介绍,UFO是第一个专为Windows OS环境中的任务完成量身定制的UI Agent。
就拿删除PPT上的所有注释为例。传统方式需要一页一页手动删除注释。如果PPT巨长无比,这个过程就会又久又无聊,让人瞬间暴躁。
但UFO得到指令后,简化了整个过程。
它先是提议用“删除所有演示笔记”功能,这个功能因为按钮位置藏得很深,经常被用户忽视。
而后,UFO导航到“File”选项,对后台视图进行访问;然后,再平滑地切换到“info”菜单,单击“检查问题”按钮,并选择“检查文档”,开始检查文档中所有包含的注释。
紧接着,UFO识别到菜单地步的“删除所有演示笔记”,向下滚动定位到其位置,启动单击功能。
考虑到误删的可能性,UFO这里有一道保护功能,需要用户再次确定是否真的要删除所有注释。
文章来源:量子位
文章作者:白交
注 本文转载已注明出处, 仅供分享、学习,不构成商业目的,版权归原作者所有,如涉及作品内容版权或其它问题,敬请与本网联系,我们及时更正,谢谢合作!