打印页面

首页 > 深度 扣子2.0深度测评:从skill到长期计划,字节的野心藏不住了

扣子2.0深度测评:从skill到长期计划,字节的野心藏不住了

扣子2.0深度测评:从skill到长期计划,字节的野心藏不住了

本文来自微信公众号: 第一新声 ,作者:奕君

“skill”可以说是最近AI圈内最火的概念。要是说前两年人们还在分享各种prompt技巧,现在则是不停种草好用的skill。

在prompt时代,用户花费了大量的时间在重复某些要求和描述上。比如不停复制粘贴同一段提示词给文本“去AI味”,比如反复在对话框里给AI重温项目背景和自己的心得经验,又或是频繁假设AI是某某领域某岗位资深的人物……AI像聪明但不断换来换去的实习生,每次换了实习生,不仅用户要费心费力把经验再次传授一遍,实习生也要劳心劳力地从0开始吸收。

而提升效率的办法已经写在各大公司的实习生制度里了。公司把业务SOP、注意事项都写进文档里,每位实习生离开前要写好交接文档,这样一来,经验得以被固定和封存,不会因为实习生的离开而被带走,而下一任实习生上任时又可以将其复用。

skill就是这样的原理。它允许用户把自己的经验打包,在需要的时候调用;甚至可以调用别人上传的经验包来为自己干活。虽说如此,由Claude最先推出的这个功能对缺乏技术背景的普通人来说使用起来还是有门槛,涉及到繁琐的安装流程。

而扣子2.0版本的正式发布,似乎拥有打破这个僵局的能力。它的产品设计为普通人使用“skill”扫清了障碍,让skill拥有飞入寻常百姓家的潜力。接下来我们便深度测评扣子2.0的“skill”和“长期计划”两项新功能,看看它可能带来哪些惊喜。

能力重组:走向场景化的Agent

更新后的扣子在左边新增了“技能商店”一栏。可以看到里面有各种各样的“skill”供人挑选,比如商业分析skill、公众号配图skill、PRD生成skill……大部分是免费的,也有一部分需要付费使用。

我们测评的第一步就从使用一个skill开始。我选择的是“PRD(产品需求文档)生成”技能,试试在使用者在没有任何产品经理思维的情况下,有这个skill的加持能写出什么质量的PRD。

我按照开发者在skill详情里介绍的使用方法,在对话框选择该技能后发送了以下prompt:帮我生成一个如下产品的PRD:这是一个内置在美图秀秀软件里的AI穿搭助手,允许用户通过数字化个人衣橱实现“搜索灵感、一键试穿、智能收藏”。

扣子用了6min的时间读取技能文件并生成了一份完整的PRD,支持以Word、PDF、MarkDown还有网页等格式下载。

以PDF格式下载了这份产品需求文档之后,首先最直观的感受就是排版非常简洁美观,应该是skill里已经预设了对文档格式的要求,所以不需要用户再额外写提示词对其加以规定。

而在提示词完全相同的情况下,豆包虽然也支持直接以文档格式下载,但是排版略显拥挤,加重了阅读负担;使用ChatGPT导出的pdf字体设计很不讲究,浏览体验不好;而Gemini 3 pro更是不支持直接导出文档,要用Python脚本生成或者复制Markdown源码的方式才行,不能一步到位。

而内容层面上的差异,其实在与通用大模型的对比中会变得更加清晰。同样是这份提示词,直接丢给通用大模型,生成结果往往停留在“看起来合理”的层面,结构完整但判断偏保守、细节泛化严重;而在skill加持下,得到的更像是一份经资深产品经理一对一带教过的成品。如果说通用大模型更像能力分布均匀的通才,那么叠加了skill的模型则更像专才——在特定领域内集中火力,交付的是明显更专业、更具完成度的结果。

为了进一步验证这种专业感是否只是表面印象,我也咨询了一位曾任产品经理的朋友。她的判断是:扣子生成的这版PRD非常适合作为第一版对齐文档,能够帮助非产品背景的人迅速建立产品全貌、补齐思维盲区;但如果进入真实的立项或评审阶段,仍然需要人来补充关键决策逻辑——例如指标为何合理、数据从何而来、以及哪些环节才是真正的业务增长杠杆。

也正是在这个还需要人来作补充的缺口,skill的真正想象空间开始显现。如果说PRD生成skill解决的是“如何写得像一个产品经理”,那么它完全可以再叠加一个只服务于具体业务语境的skill——将真实的商务约束、客户画像、历史成交数据、内部资源边界等信息,单独打包成一个业务背景skill。在生成PRD时同时调用这两类skill,扣子便得以在一个高度贴近现实的产品世界中进行推演。

尝试使用他人上线的skill之后,我们不妨自己也上线一个skill。

我从一位开店多年的宠物店老板娘那里要来一份指南,是她根据自己一手的宠物售后经验整理的“新猫到家”“新狗到家”注意事项和应对策略。将这份指南整理成文档后在扣子编程页面点击“技能”一栏,附上文档并简单描述skill的开发需求,扣子就开始解析文档进行skill打包工作了。

由于文档只有两页pdf的内容,扣子用了2min44s就完成了skill的打包,在技能商店“我的技能”板块就可以看见刚刚创建的skill,如果选择上架技能商店,只需等待5个工作日左右的审核。

打开一个新对话,选择刚刚打包好的宠物适应技能,问一些相关问题就可以得到有宠物店老板从业经验加持的回答。

不过有一个问题在于:当我对比用了skill的扣子和通用大模型的回答时,发现两者的区别并不明显。一方面原因是老板娘给的指南比较简洁,她或许有更多的经验但并没有写进文本里;一方面是针对宠物适应新家的策略基本上比较通用,老板娘的经验和其它从业者公开分享的经验之间并不足以形成明显壁垒,回答很难体现差异性。

这给我们使用扣子的启示在于:首先应当养成“经验文档化”的习惯,我们在日常工作生活中或许时时刻刻在调用以及补充经验,但如果要让AI把这些经验打包为己所用甚至是为他人所用,我们需要就以一个相对完整以及结构化的形式让AI能吸收和理解;其次,在某个领域深耕得到的经验或许会越发值钱,在skill框架下自我经验的稀缺性和学会利用他人的skill创造价值或许会成为核心竞争力。

除了skill之外,“长期计划”也是扣子2.0上线的一个特色功能。在人人追逐即时反馈、处处充斥浮躁的当下,重新张扬长期主义确实有着非凡的用意。

这个功能的使用很简单,点击添加长期计划,先简单说明自己希望达成的目标,比如跟扣子说:我是新闻学专业大三学生,我想毕业后待在北京变成月薪1.5w-2w的AI科技领域专业作者,它就会开始生成计划。

而让人惊喜的第一点在于,它会反问几个问题来确保生成的计划是贴合用户实际情况的。反问这一动作的好处在于,它极大地减轻了用户提示词输入的压力。像这里扣子就反问到了路径选择、时间投入、现有基础、学习偏好等方面,并给出了相应选项可供选择。

在给出选择之后,扣子生成了10页排版整洁的PDF文档并让我确认其中细节。特别值得夸奖的是扣子的用词,它会标注用户大概需要花多少时间来“审阅”文档,以及需要用户确认的地方会分点列出,很符合它职场AI应用的定位,体现出争取不浪费用户时间的审慎感。

而具体规划内容也是让人满意的,是一份很漂亮且科学的规划。用户多进行几轮对话,告诉扣子自己的更多情况,它确实有能力成为一个合适的长期计划陪伴者。

在计划开始之后,扣子会在对话框跟进进度,甚至它根据为我制订的写作任务生成了一份标杆作品供我对照学习,虽然这篇“标杆作品”并不算标杆,AI味过浓。

以及除了对话框之外,还有日程一栏,会记录已经完成的任务和亟待推进的任务,确实秩序感满满。

不过问题也很明显,首先是计划确实赶不上变化,如果用户临时有事,还需要和AI解释情况让它调整计划,自己还需要确认一遍它的调整是否可行,AI和用户之间的信息永远是难以对称的,用户可能需要花费不少的时间在和AI的解释和协商上,甚至可能因为对齐信息太麻烦而干脆放弃执行AI生成的规划。

其次,长期计划的强制力非常微弱,它仅仅是在对话框进行通知,这意味着只有在网页打开的时候才会看到提示,以及只要过了它规定的计划完成时间,扣子就会默认用户已经完成这项任务在日程表上划勾,最后很可能演变成扣子在网上疯狂跑任务,但是现实中真正需要行动的人却还没开始行动。

当经验成为可调用的资产

2025年3月初,Manus的走红标志着AI Agent赛道的火爆,同年4月20日,扣子空间诞生了,定位是聚焦办公领域的Agent。AI Agent和从前对话式大模型的区别在于它不再是口头上给予用户建议,而能集合各种工具来真正帮助用户落成实事,比如扣子空间就能帮助用户直接生成PPT、播客、网页等等。

而如今的扣子2.0相比起扣子空间,相当于是一个支持集成skill的AI Agent,若是说扣子空间能办事,扣子2.0则能专业化、场景化、精细化地办事。

用户对Agent的期待早已经不是“通用”就可以,而希望它能贴合自己的实际生活和工作场景,输出一个自己能直接拿来用的结果,实现效率的飞跃。

综合测评体验来看,扣子2.0可以说代表了AI Agent的进化方向,暴露出来的问题也更像是生态和时间的问题,而非方向性的失误。

试想未来skill可能像今天的APP那样普及,人类的专业经验可沉淀为数字资产,那时AI和人的协同关系将得到新一轮定义。

文章来源:http://www.jingmeijuzi.com/2026/0128/1983.shtml