Claude Skills生成器史诗级升级 新增四大功能提升使用体验

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图1

微新创想:上周直播的时候,发现Anthropic的skills仓库居然有更新了。点进去一看,居然发现了一个超级刚需的Skills迎来了更新。这个Skill-creator可以说是整个Skills生态的基石。可以说,现在小龙虾的能力能这么强,有一半的原因都要归功于Skills,而这些Skills能被创造出来,几乎都要归功于这个母Skills。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图2

我相信,任何一个看过我们过去关于Skills的文章,或者玩过Skills的朋友,都绝对不可能对这个Skill-creator陌生。简单总结就是,这是Anthropic官方出的Skills生成器。你可以用嘴描述出你的需求,然后直接用Skill-creator帮你做成一个Skill。如果有不了解的,可以去看一下我们过去的这一篇文章,一文带你看懂,火爆全网的Skills到底是个啥。自认为写的还是比较详细的。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图3

这周终于有时间,详细翻了一下这次更新的Skill-creator的文档,然后发现,这次真的可以说,是史诗级更新也不为过,强了太多太多了。所以我觉得,值得写一篇文章,来给大家聊聊,这次Skill-creator更新的新特性和新功能。真的,所有的skills,都值得重新优化一遍。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图4

非常简单的说,这次他们一口气加了4个全新的能力,分别是:1. 评估系统,跑完直接告诉你这个skill到底行不行。2. 基准测试,把通过率、耗时、token用量,全都量化。3. 多代理并行测试,每个测试在干净的环境里独立跑,支持A/B盲评,结果不互相污染。4. 描述调优,可以自动帮你改skill描述,该触发的触发,不该触发的就别乱触发。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图5

之前的Skill-creator其实一直有个痛点,就是你生成完的Skills,其实是个黑盒,你完全不知道,这个Skills到底好不好用,它的质量怎么样,它的触发机制合不合理。用我们现代经常提的工业化体系来说,就是缺少了一个很重要的东西,评估机制。评估太重要了,一个好的评估,是真的可以引领方向的。而现在,新版的Skill-creator,直接把整个评估体系,全都补上了。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图6

我极力推荐大家,一定要更新到最新版。更新方式也究极无敌简单,你直接把这段话,发给你的Agent就行,无论是Claude code、OpenClaw、OpenCode等等等等。这个skills更新了,帮我更新到最新版本。对,就这么一句话。然后你的Agent,就会自己去更新了。很快,就更新完了。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图7

我用一个案例,来给大家演示一下新版Skill-creator的能力。在之前有一篇文章中,我把Github上的yt-dlp做成了一个Skill,能从YouTube、B站等各种视频网站下载视频。但其实我们后来发现,光能下载视频还不够。我还希望拿到视频链接之后,能直接生成文字版的讲稿。而且如果是英文或其他语言的视频,最好能直接给我中英双语的讲稿文档。所以正好,借着这个机会,我就用skill-creator又搓了一个新skill。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图8

提示词很简单。我想创建一个skill,我希望能够实现我给了一个视频链接,它能够把文字版的讲稿发给我,如果是别的语言,最好是把原语言版和中文版的讲稿文档给我。它会先问你几个问题,确认需求细节,然后开始帮你设计整个skill。大概3到5分钟,这个Skill就设计完了。我拿一个OpenClaw创始人的YouTube访谈视频来试一下。就给了一个YouTube的链接。五分钟后,中文版的讲稿就出来了。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图9

但是,其实有个问题。这一大坨文字堆在一起,字又小又挤。根本没法看。这时候你就可以继续对话,让它给你优化,帮你改进这个skill。新版的Skill-creator,在改进的能力上,也有一些提升。改进之后的效果:几乎完美。排版清晰,段落分明,这才像个文档该有的样子。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图10

但这还没完。但这个时候,一个头疼的问题就来了,我害怕我的skills触发会打架。因为我现在有两个skill都跟视频链接相关。一个是yt-dlp,负责下载视频到本地。一个是刚做的讲稿生成,负责把视频转成文字。两个skill的触发条件都是给一个视频链接,我害怕他们会打架,就是出现该触发的不触发,不该触发的乱触发。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图11

那就可以使用Skill-creator的评估体系了,让它来帮你,进行优化skill描述。它会先读取你当前skill的描述,然后告诉你接下来要做四件事:自动生成两组查询,应触发的10条和不应触发的10条。设计得很有意思。故意把边界情况都摆进去,逼模型在模糊地带做判断。然后,直接生成了一个网页,让你确认,特别牛逼。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图12

真的,我用到的时候都惊呆了。所有查询排在界面里,每一条右边有个开关,标着是否应该触发。你可以逐条看一遍,觉得哪条判断不对,直接关就行。打个比方,第三条这种情况,我不想让它再触发了,我就直接让它关掉就行。然后还有不应该触发的10条,我看了一遍,没啥问题。所有的都确认之后,这时候,你点导出评估集,就完事啦。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图13

确认完样本之后,优化循环会在后台启动,最多跑5轮迭代。每一轮做三件事来帮你进行测试和评估,整个过程大约需要10-20分钟。它会定期汇报进度。跑完之后,你就能看到一个巨型表格。每一列是一个查询样本,每一行是一个迭代版本的描述。绿色勾对勾表示触发成功,红色叉×表示没触发。蓝色列是测试集,其余是训练集。它把样本分成60%训练集和40%测试集,在训练集上迭代优化,最终用测试集上的表现来选,防止过拟合。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图14

跑完之后,最优的描述会自动写回你的SKILL.md,全程不用你动手。Anthropic官方在自己6个文档类skill上测了一下,5个触发率都有提升。仅仅就用新版的skill-creator优化了一下,真的很牛逼。通过这一步,能大大提升你的Skills的触发准确率。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图15

但触发对了,并不等于OK。所以,你的Skill装上并且能稳定触发之后,到底在实际任务上表现如何,这个能力,也还要评估一下。我就继续拿这个刚做好的skill来跑一遍,带你大家看看整个过程。直接对刚刚那个skill进行一下评估。它会先把你的skill文件完整读一遍,搞清楚这个skill的核心流程是什么。然后它会问你:你更想测哪个方面?我选了全面评估。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图16

它根据skill的功能,自动设计了三类测试场景,同时设计了量化验收标准。确认方案之后,它一次性启动了4个独立子代理,同时跑。这次4个并行的Agent来进行测试,就很香了。以前其实你也可以做一些简单的评估,但是,最大的问题,就是会按顺序跑,一个跑完再跑下一个。但是大家都知道,上下文管理有多重要,前一个任务积累的上下文,会污染后一个的结果。你以为是skill的功劳,但其实完全是对话历史帮了忙。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图17

这次的评估,就对味了很多。每个代理都在完全干净的环境里独立运行,有自己的token计数和时间指标。互相之间零交叉。结果更快,数据更干净。等待的时候,它也顺手就把量化评分脚本也准备好了。等测试结果回来之后,就直接自动检查格式是否符合要求,很多小细节全都在里面。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图18

测试跑完,浏览器会弹出评估查看页面,有两个标签页。输出标签页,可以直接看每个测试用例的输出。下面还有一个反馈框,你可以直接标注哪里不对、哪里需要改进。这些反馈会被存起来,下次改进skill的时候直接用。另一个是基准测试标签页,可以看有skill vs 无skill。通过量化对比,一目了然。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图19

数据这块,也是极度量化。有skill的通过率100%,无skill基线9%,差值91.5%。费用上,有skill每次大约4000token,无skill1750token,差了2250。但这是skill带来的额外消耗,对比产出的结果,值得。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图20

但评估的价值远不止于此。Anthropic官方也举了个例子。他们有个PDF skill,之前在处理表格时会出错。Claude需要把文字精确的放在特定坐标上,但因为没有明确的字段做引导,经常放歪。这个问题在评估过程中被发现,再进行修复改进定位逻辑后,问题就解决了。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图21

也就是说,找到问题之后不用从头来过。评估结果会存在本地,下次你用skill-creator改进这个skill的时候,它会把上次标注的问题直接带进去,针对那里改。改完再跑一遍评估,看有没有提升。测试、发现、修复、再测,这个循环是完整的。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图22

Anthropic把软件开发的一些严谨做法,比如测试、基准、迭代改进等等,这次引入Skills的创作流程。真的,牛逼太多了。这绝对对于所有人来说,都是一个史诗级增强。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图23

你要知道,小龙虾为什么那么强,能做那么多的事,其实真不是因为他本身有多牛逼,纯粹是因为,它身上挂的Skills,太多了,那都是一个一个的技能包。可以说,Skills,就是整个Agent未来大繁荣生态的基石,而我自己,也一直极力的看好和强力推广各种各样的Skills。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图24

所以,我极度建议,大家把Skill-creator更新到最新版,然后把你自己所有的Skills,都进行优化和评估一遍。当然,你得先分清楚,你写的Skills是哪种。因为本质上,Skills其实分两种。第一种是能力提升型。就是教Claude做它本来不擅长的事。比如官方的前端设计skill、文档创建skill,里面写了大量技巧,是你光靠Prompt根本拿不到的效果。我们大多数人自己搓的skill,基本也都是这类。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图25

第二种官方叫编码偏好型。就是告诉Claude按你的规矩来。Claude本身每一步都能做,但你的skill把这些步骤按你团队的流程串起来了。比如一个会议纪要整理skill,按你们公司固定的格式,自动把录音转成带行动项的文档。或者一个周报生成skill,从各个平台里拉数据,按你要的格式排好。你可以把这种,理解成一个Workflow,就是一个工作流。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图26

对这两种类型,评估的方向会稍微不太一样。对于能力提升型,测的是模型更新之后这个skill还有没有存在的必要。用A/B测试对比,有skill和没skill各跑一次。结果如果差不多,这个skill就可以退休了。编码偏好型测的是另一件事,它有没有老老实实按你的流程走?有没有漏步骤?有没有自作主张改了顺序?有没有忘了你特别说过的某个要求?所以会稍稍有一些区别,这个大家在自己评估的时候,可以注意一下。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图27

回头想想,以前造完一个skill,其实也就是自我感觉良好。但说实话,全是黑盒,根本不知道该怎么评估。现在就舒服多了。评估跑一遍,数据摆出来,好不好用,一眼就见真章。所有的Skills,真的都值得重新优化和评估一遍。Skills生态。感觉又要迎来一波大繁荣了。

Claude Skills生成器史诗级升级 新增四大功能提升使用体验插图28

最新快讯

2026年03月11日

17:28
微新创想:2026年3月,中国知名散热厂商利民正式发布了CF7、M1、TH7和GT四款全新导热硅脂产品。这些新品覆盖了2.5g至8.5g四种规格,能够满足不同应用场景下的散热需求。无论是用于个人电脑的CPU还是高性能显卡的GPU,这些导热硅脂都能提供出色的热传导性能。 微新创想:每款产品均标称导热系数在12.8~12.9 W/m·K之间,确保了高效的热量传递...
17:28
微新创想:2026年3月,卡普空推出了其最新作品《生化危机:安魂曲》。这款游戏支持DirectStorage与GDeflate GPU解压缩技术,但实际启用情况却显得并不稳定。 测试结果显示,即使是同型号的显卡,例如RTX 5090,在不同驱动版本下也可能在CPU和GPU解压模式之间切换。这种不确定性给玩家带来了困扰,因为解压模式的切换可能会影响游戏的加载速...
17:28
微新创想:近日,#蜜雪冰城或卖现磨咖啡登上热搜。相关加盟商透露,部分门店已开始引进咖啡机,单台售价高达3.3万元。这场“咖啡实验”初期将在郑州小范围试点;若模型跑通,便可能迅速复制至全国4.5万家门店。图片源自微博 尽管蜜雪冰城官方尚未正式官宣,但信号已足够清晰:“雪王”不再满足于只卖咖啡粉冲调的“饮料”,而是要真刀真枪地杀进现磨咖啡赛道。其实,这并非蜜雪集...
17:28
微新创想:联想拯救者官方今日宣布第五代AI平板Y700将于3月18日正式发布。这款新设备在续航和充电方面表现出色,搭载了9000mAh大容量电池,并配备双Type-C接口。用户不仅可以使用其进行高效办公和娱乐,还能通过该接口为两台手机同时反向充电,极大提升了设备的实用性和便利性。 此外,Y700还符合民航携带标准,意味着用户可以放心将其带上飞机,满足出差和旅...
17:28
微新创想:近日,人工智能口腔健康平台BiteZen获得新一轮战略投资。该公司总部位于美国,专注于牙齿紧咬与磨牙症的居家智能监测。BiteZen致力于为用户提供更便捷、精准的口腔健康解决方案,特别是在磨牙症这一常见但常被忽视的健康问题上。 微新创想:其核心产品是一款可嵌入护齿套的微型口腔传感器。该设备能够实时采集用户的咬合力数据,帮助识别夜间磨牙等潜在问题。通...
17:28
微新创想:2026年3月,法国医疗设备开发商May Health宣布获得1170万欧元战略投资。本轮融资由Bpifrance、Trill Impact和Sofinnova Partners FORLIFE联合完成。该公司的主要业务方向是针对多囊卵巢综合征(PCOS)的治疗方案。其核心技术是一种处于临床阶段的卵巢再平衡医疗器械,该设备旨在帮助改善PCOS患者的...
17:28
微新创想:2026年3月11日,工业和信息化部批准发布《算力网络 术语》等453项行业标准。此次发布的标准广泛覆盖化工、石化、冶金、建材、机械、轻工、电子、通信等多个行业,涉及领域多达十余个。其中,通信行业的标准数量最多,共计151项,机械行业则紧随其后,拥有182项相关标准。 微新创想:这些标准的发布,标志着我国在算力网络领域迈出了坚实的一步。《算力网络 ...
17:28
微新创想:2026年2月12日起 华莱士母公司福建省华士食品股份有限公司正式终止在全国中小企业股份转让系统挂牌 公司于2016年4月成功上市 这一历程持续了近十年 退市决定是基于经营实际情况 市场环境变化以及长期战略规划的综合考量 此举旨在优化公司治理结构 提升决策效率 降低运营成本 从而更好地适应未来发展需求 此前 公司已于2026年1月9日向全国中小企业...
17:28
微新创想:2026年3月10日,冠轈控股全资附属公司深圳天启明与广州豪特节能环保科技股份有限公司及股东陈振明签署认购协议,以约1.4亿元认购豪特节能新增注册资本541.37万元,占其扩股后总股本的5.3%。 此次投资标志着冠轈控股在节能环保领域的布局进一步深化。豪特节能作为一家专注于能源管理解决方案的企业,致力于为企业和公共机构提供高效、智能的一站式能源管理...
17:28
微新创想:3月11日,璞诺智药(苏州)生物科技有限公司宣布完成近亿元人民币天使轮融资。本轮融资由华盖资本与博远资本共同领投,薄荷天使基金等机构跟投。此次融资标志着公司在创新药研发领域迈出了坚实一步。 资金将主要用于推进核心管线的研发工作,进一步优化其自主研发的PPI-AI平台,并扩充“干湿结合”的研发团队。通过这些举措,公司旨在加速药物发现和开发进程,提升研...
17:28
微新创想:老铺黄金在3月11日发布了2025年盈利预告,显示出强劲的增长势头。公司预计全年收入将达到270亿至280亿元,较去年同期实现217%至229%的同比增长。净利润方面,预计在48亿至49亿元之间,同比增长幅度为226%至233%。这一业绩表现不仅体现了公司在市场中的竞争力,也反映了其持续优化业务结构和提升盈利能力的成果。 在销售业绩方面,老铺黄金全...
17:28
微新创想 近日一段配文为“爷爷 129 岁,奶奶 129 岁,相知相恋 100 年,相濡以沫,百年难遇,六世同堂”的视频在网络上引发热议。该视频发布后迅速获得数十万点赞,成为热门话题。然而随着热度上升,也引发了大量网友对视频内容真实性的质疑。 涉事账号的主页标注为“湖南省乡村振兴营销推荐官”,拥有39.3万粉丝。自今年2月起,该账号已陆续发布多条类似主题...