【新智元导读】方才,AlphaEvolve又上大分了!基于它的开源实现OpenEvolve,靠自学成才、本人写代码,间接正在苹果芯片长进化出了比人类还快21%的GPU核函数!这一刻,是从动化编程史上实正里程碑时辰,「AI为AI编程」的新时代正式,从动化奇点实要来了。随后,不竭有开辟者用代码,AlphaEvolve的矩阵乘法冲破!一个开辟者成功证明,它仅用了48次乘法,就准确完成了4×4矩阵的乘法运算。具体来说,通过进化代码,它从动发觉了一套正在Apple Silicon上远超手动优化的GPU Metal核函数。正在实正在的Transformer推理使命中,它带来了平均12。5%的机能提拔,峰值以至飙升了106%。这不是一次简单的机能跃迁,就能正在复杂的硬件架构中,挖掘出连专家都难以察觉的优化径。更主要的是,这一成绩并非逗留正在尝试室或论文中,而是正在实正在世界中、正在当今最支流的AI模子使命中,结实地跑了出来。而正在之后,跟着硬件架构持续高速迭代,这是由于,现代Transformer模子严沉依赖于高度优化的留意力核函数,但编写高机能的GPU代码却需要具备以下范畴的深挚专业学问。所以,能否有可能不消人写代码,完全交给OpenEvolve,让它从动进化,看能否能生成机能更强的GPU核函数代码?Sharma将OpenEvolve设置装备摆设为间接进化Metal核函数的源代码,同时保留其取MLX框架的集成体例。对于128维的留意力头,若是把数据按8个一组来处置,刚好就能完满婚配Apple Silicon硬件的SIMD宽度。这就相当于从动踩中了硬件的「甜点区」,完全不需要任何人工调优,就能把机能间接拉满,让硬件操纵率最大化!正在这个过程中,OpenEvolve做了一个很伶俐的立异:把本来分隔的两个步调——Softmax归一化和值累加,融合到了一个计较轮回中。这个模子的查询头取键值头的比例是特有的40!8(即5!1),系统充实操纵了这个特征,设想出一种奇特的归并内存拜候(Coalesced Memory Access)的模式。这种模式,出格适合Apple Silicon的同一内存架构,可谓是量身定制,效率极高,机能拉满。并且此中最为注目的是,正在处置反复性模式生成使命时,OpenEvolve进化生成的核函数间接把解码速度提拔了脚脚106%!总之,OpenEvolve正在某些特定类型的工做负载上,确实有很强的优化能力,能挖掘出原先的手写代码难以触及的机能潜力。正在20个分歧测试使命中,它正在此中7个使命上提拔很是较着,机能增加跨越了25%,表现出了「质的飞跃」。它不是通俗的跑分东西,而是特地为GPU核函数这种「硬核」代码而设想的,专为应对GPU核函数开辟过程中的各类挑和。恰是由于这套评估系统出格稳、鲁棒性极高,OpenEvolve才敢铺开四肢举动去测验考试各类激进的优化方案,所以,有这么一套高鲁棒性的机制兜底,才让系统能安心斗胆地「卷」出新花腔,把机能一步步推上去。智能代码标识表记标帜:通过特定标识表记标帜,确保进化过程仅针对Metal核函数源代码,同时完整保留取MLX框架的集成代码。最终的优化方案是为Apple Silicon硬件量身定制的,这就表白,OpenEvolve具备从动挖掘、操纵特定硬件特征的能力。进化过程发觉的「两阶段正在线Softmax(two-pass online softmax)」算法,本身就是一项新鲜的手艺贡献,使用潜力曾经远远超出了本次尝试的特定场景。这些优化并非「夸夸其谈」,而是正在实正在的Transformer推理负载中能带来显著机能提拔的适用手艺,完全具备正在出产中摆设的价值。本文为磅礴号做者或机构正在磅礴旧事上传并发布,仅代表该做者或机构概念,不代表磅礴旧事的概念或立场,磅礴旧事仅供给消息发布平台。申请磅礴号请用电脑拜候。