手机浏览器扫描二维码访问
在FP8问题上,孟繁岐与DS是一致的。
在稀疏这一方向上,孟繁岐选择了细粒度,矩阵层面的稀疏。
DS则选择了通道层面的MoE,混合专家模型。
简单来说,DS选择把模型拆分为1632个专家,就像是把一块蛋糕均分切成1632块。
每一块都是不同的味道,每一个专家更加专注于不同的知识。
根据具体的情况,会有一个门控系统,来决定哪些专家参与计算。
而孟繁岐的野心更甚,他想要从根本上将整个模型在原子级别拆分,细粒度地对所有权重进行大刀阔斧地裁减,直到原本大小的1632分之一。
从理论上说,这种方式的上限更高,MoE的稀疏更显得粗糙。
另一方面,孟繁岐也有愿景,想要增强国内硬件的竞争力。
因为英伟达的设备,是无法支持这种细粒度稀疏计算的。
倘若能够先发展国内计算设备,适配这种技术,就能够在制程等诸多硬件技术落后的情况下,达到更快的推理效果。
换言之,孟繁岐又一次将希望寄予了发展周期更长的硬件厂商,那么在这方面被其他人赶上,倒也不是什么奇怪的事情了。
虽然具体实现上稍显不同,但总体来说,DS完成了孟繁岐在技术上的两点宏观展望。
从其余的许多技术细节当中,孟繁岐可以很强烈地读到,他们的开发之路走得也并不顺利。
比如说混合专家MoE,很容易让一两个专家变成懂王,什么都要参与,很多其他的专家渐渐变成了挂件,貌似在参与,其实完全就是围观的观众。
如果增加额外的损失函数去调整它们,既增加了大量计算量,又极有可能影响到训练的主要目标本身。
专家们的调度问题这个小问题影响到模型的能力这个主要问题。
DS最终完美地解决了这个问题,既没有额外增添损失计算优化,又使得各专家实现了负载均衡。
孟繁岐相信,这个最终简洁优雅的技术方案背后一定存在许多努力与艰辛。
而现在的closeai对这种付出是越来越排斥的。
比起花费许多的努力在某一个算子上优化20-30%的速度,他们更愿意多用一些显卡,多花一些时间。
既然英伟达暂时不直接支持FP8做这样的操作,那就先等等吧。
诸如此类的事情持续累积,使得后来者已经实质上实现了相当数量的技术超越,甚至是在孟繁岐较为关注的技术方向上。
而DeepSeek的坦率开源,也让孟繁岐动摇了closeai是否继续闭源的想法。
“若是我适当裁减一些已经沉迷安乐的技术人员,逐渐走向开源,对比海对面的OpenAI倒也算是奇景了。”
孟繁岐想到这里也是笑出了声。
自从两国关系逐渐微妙,CloseAI的在美使用就收到了限制。
原本标榜开源的OpenAI逐渐走向闭源,而最初就闭源盈利的CloseAI反而在考虑拥抱开源盛世。
这倒也称得上是另一种双向奔赴了。
同一时刻,比起一直在关注技术细节的孟繁岐,普通人更为在意的,则是R1这个模型,首次揭露了前沿高性能智能思考问题的逻辑脉络。
本书唯一交流群780722791。每日保底更新万字有打赏会加更喲更新时间每天的十一点。准备千年的空间跨越唐昊再次回到地球发现老婆失踪宝贝女儿被欺负那一刻他愤怒了只因为那是他的逆鳞谁触谁死。这一世活着就为了保护自己所在乎的人这是他的信念。...
江楠有七个超飒姐姐!霸道总裁大姐,世界顶级黑客二姐,美女神医三姐,国际赌神四姐。雇佣传奇五姐,科学家六姐。就连最小的七姐都是国际巨星!而江楠也因为一场邂逅身体变得异与常人,可姐姐们还是送钱送豪车,各种贴心又关怀。拜托,我真的不想当扶弟魔的弟弟啊,还一下子来七个!江楠无奈不已。...
圣战大陆三万年,百族圣战爆发,血流成河,以人族为首之百族惨胜龙神大陆异族入侵,百族签订万年停战协议,圣战大陆百废待兴,天启时代降临!天启大陆五千年,以龙族为首百族率先撕毁协议,发动百族内战,对人族疆域进行掠夺,仅仅百年,人族疆域十不存一,人族转攻为守。...
托名国之栋梁,实为乱臣贼子,争地以战,杀人盈野。内破闯贼,外拒鞑虏,迫思宗上吊,江沉弘光帝,驱虎狼祸乱江南,史笔如刀字诛心。谁说明亡之后无华夏?为了新制度的延续,为了终结王朝更替之祸,骂我独裁又如何?一个现代来的小人物,在乱世中崛起,背负数世骂名,手持屠刀,要在这个波谲云诡的明末中,杀出一个万世之太平!...
穿越了,重生了却成了董卓的儿子。不过记得三国中董卓没有儿子,这算是哪门子事?对董卓的印象,是和猛将兄争女人。虽然上了小貂,却丢了脑袋。我只是一个小小的护林员,穿越的时候忘记带着百度大神一起来,而且还生在了一个奇丑无比的家伙身上。老爹视我为妖怪,大家把我当成洪水猛兽,除了奶奶和姐姐...
魔兽践踏,巨龙咆哮,巫师诅咒,魔法璀璨之光照耀知识灯塔!...