打印页面

首页 > 深度 马斯克直言“奇点降临”:卡帕西让AI自己研究LLM,两天后训练时间暴砍11%

马斯克直言“奇点降临”:卡帕西让AI自己研究LLM,两天后训练时间暴砍11%

马斯克直言“奇点降临”:卡帕西让AI自己研究LLM,两天后训练时间暴砍11%

本文来自微信公众号: 夕小瑶科技说 ,作者:未知艺术家

3月8号,卡帕西分享了他的新开源项目——autosearch。

不到三天,github上已经有19.1k的star。X上的讨论度突破八百万。

这周,卡帕西又更新了项目进展。在autosearch运行两天之后,

AI自主尝试了276次实验

这些改进叠加之后,对于同一个模型,AI的训练速度提高了大约11%。

AI真的找到了自我改进的方法。

对于这个重大发现,马斯克直接在帖子下面感叹——我们身处奇点。

autosearch是啥?

先给还不熟悉的小伙伴们介绍一下这个新项目——autosearch。

卡帕西把nanochat的LLM训练核心简化成了一个单GPU版本——

630行代码,一张显卡就能跑。

人只需要改提示词,然后用AI agent对模型进行自动优化,理念和操作流程都非常简单:

启动AI,它会自动修改训练代码,运行多次模型训练,并且检查训练结果是否比之前更好。

单次训练的时间控制在5分钟左右

如果效果变好了,它就保留这次修改;反之就放弃,然后继续进行下一轮实验。过程中会留下详细的实验日志,同时也有可能得到一个性能更好的模型。

这其实就是创造了一个小型的真实LLM训练环境,然后让AI自己做实验。

最终目标,是让AI代理能够在无需人类干预的情况下,以最快的速度,自主推进迭代和研究。

两天内,AI的改进效率惊人

这项目刚打包出来的时候,卡帕西就在nanochat上跑了初步的小规模测试,总共做了83次完整实验,找到了15个改进点。

当时附的配图是这样的。

图中每个点都代表了一次完整5分钟的LLM训练运行。绿点表示尝试后保留的改进点,剩下的白点都是丢弃的。

这时候模型刚开始跑,改进也比较零散,还出现了一点小乌龙。

比如有网友发现,AI在改进的时候偷偷砍种子作弊。

之后卡帕西也没再干预,让agent在depth=12的模型上自主运行了2天,

这是今天的实验进度,效果非常可观。

两天里,它一共运行了276次实验,总共尝试了大约700次代码修改,最终保留了29个改进点。

这组实验是通过让模型达到与GPT-2类似的训练损失水平所需要的时间,来衡量训练效果的。

这29个改进点,让整个过程的耗时从2.02小时缩短到了1.8小时,相当于提升了大约11%的训练效能。

在卡帕西当“甩手掌柜”的48小时,AI做出的自动修正主要有以下几点:

为无参数QKnorm添加缩放乘数,使得模型的注意力更集中

为Value Embeddings添加正则化

调整带状注意力的保守设置

优化AdamW的beta参数

而这些细节,正是他手动调节时被忽略掉的。

我有点惊讶,我第一次尝试这种简单方法就能效果这么好。

要知道在此之前,卡帕西已经优化nanochat很久了。

但在这个基础上,AI又找到了29个他没发现的问题。

这足以证明在某些细节上,AI的表现已经开始超过顶级人类研究员的注意力范围了。

卡帕西手动验证了这些改进是可以叠加的,还能直接搬到更大的depth=24模型上用。

到了这一步,autoresearch就不仅仅只是一个有趣的demo了。

从它的运行,我们可以窥见未来AI自主LLM研究的缩影。

下一步计划:代理工作并行

卡帕西说,这是他第一次完整看到AI代理完全自主地完成神经网络训练的迭代优化流程。

整个“想主意→写代码→跑实验→看结果→规划下一步”的全流程,被Agent自己端到端干了。

20年以来,这都是卡帕西手动干的活。但是这次,AI做的甚至还超出了他手动调优的水平。

卡帕西的下一步计划,是启动“第二轮”实验。同时,他也正在研究多Agent协作、并行工作的可能。

通过不断试验,AI组成的代理群可以从小模型逐渐调适到大模型。

他进一步预测:以后,很有可能所有LLM前沿实验室都会采用AI自动调参。

直到有一天,任何能快速测出来的指标都能让AI自动研究。

到那时候,AI代理会从辅助工具,成为真正的自主研究者。

文章来源:http://www.jingmeijuzi.com/2026/0314/3711.shtml