狂风中文网

第21章 你们看懂了吗(第1页)

天才一秒记住【狂风中文网】地址:https://www.kfzw.net

第5次回看题干。

齐物盯著题干里设置的核心障碍:退化临界子流形s以及海量零特徵值的hessian矩阵。

“高维鞍点陷阱……”

齐物已经猜出阿力八八遇到的难题了。

阿力八八在ai大模型的训练中,应该是梯度趋近於零时,导致优化器失效,然后ai死锁。

自2018年,openai发布gpt-1以来,ai正式进入大模型时代,全世界的网际网路巨头都在开发自己的大模型。

阿力八八自然也不意外。

“阿力八八肯定遇到了梯度消失和loss停滯的问题,並且迟迟无法解决。”

齐物看穿一切,“这道题就是在求救。”

“常规的加速器,不管是加动量还是adam,本质上还是依赖歷史梯度的惯性。

但是在这种绝对平坦的鞍点陷阱里,歷史梯度早就消耗殆尽了,所以ai才会被死锁。”

第6次回看题干——

“题目要求构造一个纯几何的拓扑补偿项Ω(x),不能改变全局极优解,还要能指数级逃逸……”

齐物陷入沉思,“不能顺著梯度走,那就必须製造一个和梯度正交的力?

引入空间的內蕴曲率,用拓扑扭矩把系统强行甩出去!”

齐物开始在草稿纸上推演。

“就像在平底锅里放了一颗玻璃球,平底锅太平了,球不动,常规做法是倾斜锅底(梯度下降),但是现在锅底卡死了,那么我就在锅里人为製造一个磁场,让球自己旋转起来!

利用——洛伦兹力逃逸!”

思路清楚了,齐物开始在latex里输入自己的答案。

————

与此同时,千里之外的杭城。

阿力八八西溪园区,达摩院ai大模型【九章】的核心研发中心。

大屏幕上,代表著阿里耗资百亿打造的下一代通用大模型【九章】的训练损失函数(loss曲线),正死死地卡在一个平缓的平台上,犹如一条死去的心电图,已经整整停滯了三个月。

“还是不行!

张总,我们增加了学习率、引入了动量梯度下降,甚至使用了最新的adamw优化器,但是梯度流依然在11维度的张量特徵空间里打转!

彻底迷失了!”

高级算法研究员小林无奈地道。

达摩院首席ai科学家,张宙双手抱在胸前,眉头紧锁,站在屏幕前一言不发。

这是他从openai跳槽回国之后,开发的第一个大模型,没想到就遭遇了罕见的高位拓扑死锁。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

基因大时代御道倾天时光因你而甜异世人生之精灵弓手穿书后病娇反派抱着我求亲亲他在星河等我护肤网红在古代电影世界穿梭门漫威:秘术法师奈德穿成汉武帝的家庭医生后科技尽头诸天大航海时代乡村最强小神农日月重光重生之美利坚反恐诸天执道超神学院武道天使之旅模拟神仙是什么体验大秦:公子丹,镇守边关八年不做动画就会死御前心理师我靠和霍少恋爱续命我在忍界靠经营暴富如珠似宝穿成男团女经纪人,我带飞小鲜肉