分享好友 最新资讯首页 最新资讯分类 切换频道
智谱、OpenAI“较上劲”!AI智能体又进化了:微信拜年、操作电脑不在话下
2025-02-03 18:20

  春节将至,年味儿渐浓,AI给出了拜年新思路,让AI智能体(AI Agent)送上春节祝福,一句话就能实现——

  据自媒体测试,给AI下达“给群里所有人发送新春祝福语”的任务后,AI为该微信群的各位定制了不一样贺词,且“细心”附上了对方名字,无需手动操作便完成发送。

image
image

  用GLM-PC发定制化新春祝贺时GLM-PC的思考过程

  这番操作出自智谱刚上线的电脑智能体GLM-PC。

  1月23日,智谱正式上线GLM-PC。据介绍,GLM-PC是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样“观察”和“操作”计算机,协助用户高效完成各类电脑任务。GLM-PC还推出了深度思考模式,并新增逻辑推理和代码生成功能。

image

  2024年10月,智谱发布的手机版智能体AutoGLM火速出圈,跟手机端的AutoGLM不一样,GLM-PC引入了代码机制,而在深度思考模式下,GLM-PC接收任务后会生成一套非常详细的思维链,再去执行,代码式的思维链可进一步强化GLM-PC对复杂任务的规划、推理、和反思的能力。

  目前,GLM-PC的Window和Mac客户端已同步上线。智谱表示,正与联想、华硕等知名PC 厂商展开深度合作探讨,共同推动的创新与发展。

  晚些时候,OpenAI的AI智能体Operator在北京时间1月24日凌晨亮相,它能够代理用户执行基于网页的操作,直接与网页交互——像人类一样点击、滚动和输入文字,自动执行各种复杂操作,包括编写代码、预订餐厅、购物等。后续的部分用户测试显示,Operator还可以完成在Arxiv上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作。

image
image

  用Operator预定餐厅

image

  用Operator买菜

  与智谱的深度思考模式类似,Operator可通过新模型“计算机使用智能体”(Computer-Using Agent,简称CUA)的系统进行复杂的思维链反思和步骤规划,CUA结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正,大大提高了Operator完成任务的精度和复杂性。

  目前,OpenAI的“Operator”智能体以“研究预览”(research preview)的形式向美国的ChatGPT Pro用户开放。(小K注:ChatGPT Pro的订阅费用为每月200美元,该服务专为需要高级AI功能的专业用户设计,提供无限制访问包括GPT-4o和o1在内的高级模型)

  OpenAI表示还将扩展智能体的动作空间,在接下来几周/几个月内推出更多的智能体。此外,其还计划开放API接口,让开发者能够基于CUA构建自定义的计算机智能体。

  2025智能体元年?

  OpenAI总裁Greg Brockman为Operator打call并强调,“2025年是智能体之年”。

image

  OpenAI曾被曝出内部AGI路线图,将这一终极目标的实现划分了五级。目前OpenAI正向AI智能体,即L3级迈进(代理者,可以采取行动的系统)。

  2024年,智谱同样将AGI的实现划分了5级。智谱CEO张鹏在Agent Open Day上再次阐述了公司对AI能力演进的战略构想——截至目前,LLM已经初步具备了人类与现实物理世界互动的部分能力,智能体将会极大地提升L3使用工具能力,同时开启对L4自我学习能力的探索。

  无论是智谱还是OpenAI,其智能体最大的独特之处在于具备独立思考、调用工具的能力。对于普通用户而言,其最核心的功能是AI自主操作硬件设备,辅助完成复杂推理任务。

  手机上的智能体能够精准操控各类应用,实现跨场景智能交互;电脑端的智能体被训练用于与图形用户界面GUI(在屏幕上看到的按钮、菜单和文本框)进行交互,意味AI能适应几乎所有的计算机环境,进一步凸显了AI玩转各类操作系统的能力。

  另据《科创板日报》不完全梳理,谷歌、、Anthropic在内的头部厂商正争先推出AI智能体产品——

  在其Dynamics365平台一口气推出10个自主AI智能体,称相当于187名全职员工的产出;

  谷歌发布号称“智能体时代”最强大模型Gemini 2,提供多模态开发接口,让智能体能“看懂”物理世界;

  Anthropic为大模型Claude迭代了新功能——Computer Use,让AI可以像人一样操控电脑。Claude3.5 Sonnet是首个支持计算机控制的模型,能够模拟人类操作计算机,包括移动光标、点击按钮和输入文本;

  华为公布了一项可让AI像人类一样操作手机的新研究成果,相关团队提出了一个手机控制架构:Lightweight Multi-modal App Control(轻量级多模态应用控制,简称LiMAC)。

  华创表示,随着AI技术的不断进步,AI Agent已经不再局限于简单的任务执行,当前正逐步实现从0到1的跨越式创新。众多企业和研究机构投入研发,推出创新产品。行业结构初步形成,相关产业链和生态系统逐渐完善。根据Root analysis,预计全球AI代理市场规模将从2024年的52.9亿美元增长到2035年的2168亿美元,2024-2035年预测期内的复合年增长率为40.15%。

  表示,展望2025年,AI Agent和推理需求的指数级增长有望引领规模化AI应用元年,持续推动软件产品能力边界的拓展,赋能企业实现更高效的运营和成本优化。以字节跳动为代表的企业通过豆包AI等核心产品的广泛应用,率先全面布局AI市场,显著提升推理能力和多场景适配性,为国内AI Agent技术实践提供了落地基础。结合大模型与AIAgent未来的技术进步,智能化应用场景加速拓展,助力企业级市场实现降本增效。这一现象将引领ToBSaaS行业迎来新一轮成长机遇,为行业在未来五年孕育出一批高成长型红利企业奠定基础

  表示,AI Agent将是通往通用时代的必经之路,大模型快速迭代升级推动AI Agent能力提升,长期来看AI Agent关键在于推理能力,未来AI Agent广泛渗透时,对于推理算力的需求将是指数级爆发增长

最新文章
立遗嘱的年轻人:死后如何继续爱这个世界|封面头条
封面新闻记者 刘叶日前,一位无父母、配偶、子女以及兄弟姐妹的独身女子病故,法院判决,房产收归国家所有。一时间,引发关于年
游戏王爆发 诺基亚N81游戏功能专项评测(10)诺基亚游戏手机「游戏王爆发 诺基亚N81游戏功能专项评测(10)」
SFC  SFC模拟器能模拟任天堂的Super Famliy Computer游戏机的游戏。SFC游戏就是电子游戏机室里面的游戏,相信不少玩家都有在游
vivo Y35m+ 手机曝光:搭载天玑 700、50MP 主摄,1599 元起vivoy35手机多少钱「vivo Y35m+ 手机曝光:搭载天玑 700、50MP 主摄,1599 元起」
IT之家5 月 16 日消息,vivo 尚未发布的机型 vivo Y35m+ 出现在了中国电信终端产品库中。根据中国电信曝光的截图来看,vivo Y35m
欢乐宇宙冒险启程《乐一通大电影:地球爆炸之日》定档4月18日
封面新闻记者 周琴4月10日,《乐一通大电影:地球爆炸之日》宣布将于4月18日全国上映,华纳经典IP即将回归。影片延续美式复古漫
云手机技术是怎么实现的?云手机网页版「云手机技术是怎么实现的?」
前言随着亚矩阵云手机在跨境电商、海外社媒矩阵搭建、出海运营、海外广告投放、国内新媒体矩阵运营、品牌应用矩阵运营等领域内的
早期 Steam Deck 原型机现身拍卖,2000 美元成交
IT之家 4 月 10 日消息,近日,一款看起来像是早期 Steam Deck 原型机的设备在拍卖中以 2000 美元(IT之家注:现汇率约合 14712
五四青年节,设计不设限手机凤凰「五四青年节,设计不设限」
——大咖设计师对话青年设计师为纪念五四运动101周年,弘扬“五四”精神,展现当代设计师的精神风貌,增强团的凝聚力和向心力,
高盛第一季度业绩要点总结:股票交易员营收创历史最高,循序渐进等待明朗
1、股票交易员获得了有史以来最高的收入,这得益于新兴全球贸易战引发的市场波动。2、由于不确定性加剧,首席执行官所罗门(Davi
足球——西甲:皇家马德里不敌巴伦西亚
当日,在2024-2025赛季西班牙足球甲级联赛第30轮比赛中,皇家马德里队主场1比2不敌巴伦西亚队。4月5日,皇家马德里队球员维尼修
解锁旅游促“三交”新范式 新疆发布一批典型案例和示范景区等
  中新网新疆库车4月8日电 (苟继鹏)8日,2025年新疆旅游促进各民族交往交流交融推广推进活动在阿克苏地区库车市举行,活动发布