还记得之前那个提出了新的液体基础模型(LFM,Liquid Foundation Model)的 Liquid AI 吗?在被 AMD 投资数月后,这家来自美国麻省理工学院的初创公司又带来新成果了。
4 月 25 日,Liquid AI 正式发布了面向边缘设备的全新 AI 架构“Hyena Edge”。与目前主流的基于 Transformer 的模型架构不同,Hyena Edge 是一种基于卷积的多混合模型,专为智能手机等边缘设备优化设计。
“人工智能正迅速变得无处不在,从大规模云端部署到智能手机和笔记本电脑等资源受限的边缘设备。”Liquid AI 科学团队成员 Armin Thomas、Stefano Massaroli 和 Michael Poli 在研究报告中表示,“尽管有令人印象深刻的进步,大多数为边缘部署优化的小型模型,如 SmolLM2、Phi 模型和 Llama 3.2 1B,主要依赖于基于注意力运算符的 Transformer 架构。”
这些传统架构虽然具有可并行计算和高效内核的特点,但在边缘设备上仍面临效率瓶颈。而 Hyena Edge 作为一种 Liquid 架构,天生就在计算效率上具有优势,非常适用于边缘部署。据 Liquid AI 宣称,Hyena Edge 在真实硬件测试中,于计算效率和模型质量两方面均展现出超越 Transformer 基线的性能。
他们在三星 Galaxy S24 Ultra 上对 Hyena Edge 进行了测试,结果显示该模型在多个关键指标上均超越强大的基于 Transformer 的基准模型。
在效率方面,Hyena Edge 展示了更快的预填充(prefill)和解码延迟。特别是对于超过 256 个标记的序列,解码和预填充延迟最高可提高 30%。值得注意的是,其在短序列长度下的预填充延迟也优于 Transformer 基线,这一点对响应式设备应用至关重要。在内存使用方面,Hyena Edge 在所有测试序列长度下均使用更少的内存。
(来源:Liquid AI)
在模型质量方面,Hyena Edge 在经过 1000 亿 tokens 的训练后,在包括 Wikitext、Lambada、Hellaswag、Winogrande、Piqa、Arc-easy 和 Arc-challenge 在内的各种常见语言建模基准测试中表现出色。例如,在 Wikitext 上的困惑度(perplexity)从 17.3 降至 16.2,在 Lambada 上从 10.8 降至 9.4,在 PiQA 上的准确率从 71.1% 提升至 72.3%,在 Hellaswag 上从 49.3% 提升至 52.8%,在 Winogrande 上从 51.4% 提升至 54.8%。
“这些结果表明,模型的效率提升并不以预测质量为代价——这是许多边缘优化架构常见的取舍。”研究团队表示。
而 Hyena Edge 的核心技术,正在于团队此前提出的 STAR(Synthesis of Tailored Architectures)框架及其优化技术。STAR 框架的核心思想是利用进化算法(Evolutionary Algorithms)和线性输入变化系统(LIVs,Linear Input-Varying Systems)的数学理论,来高效地探索广阔的神经网络架构空间,并自动合成出针对特定目标(如低延迟、小内存占用、高模型质量、小参数量等,可多目标同时优化)的“量身定制”的架构。
图丨 STAR 框架说明(来源:Liquid AI)
与传统的依赖人工经验和直觉进行模型设计,或在有限空间内进行自动化搜索的方法不同,STAR 提供了一个更全面的解决方案。LIV 理论是一个关键的理论基础,它能够统一地描述和泛化深度学习中常见的多种计算单元,包括各种注意力变体、线性循环网络、卷积网络以及其他结构化算子。STAR 基于 LIV 理论,构建了一个新颖的、分层的架构搜索空间。
在这个框架下,模型架构被编码成一种“基因组(Genome)”。这种基因组包含了架构的多个层级信息,从底层的特征化(Featurization)方式、算子结构(Operator Structure,定义了 Token 和 Channel 的混合方式),到顶层的骨干网络(Backbone,定义了 LIV 单元之间的连接和组合方式)。STAR 的基因组设计具有良好的层次化和模块化特性。
随后,STAR 运用进化算法的原理,对这些架构基因组进行迭代优化。主要包括评估(根据预设目标衡量架构性能)、重组(组合优秀父代架构的特征)和变异(引入随机变化以探索新架构)等步骤。该框架支持多目标优化,能够同时考虑模型质量、参数量、推理缓存大小、延迟等多个可能相互冲突的指标,以寻找在这些目标间达到较好平衡的架构方案。
根据其技术文档,STAR 在优化大型语言模型架构时,无论是在纯质量优化、质量与参数量联合优化,还是质量与推理缓存大小联合优化方面,其生成的架构均能在各项指标上显著优于高度优化的 Transformer++ 和 StripedMamba 等基准模型。例如,在优化质量和参数量时,7/8 的 STAR 进化架构在下游任务基准上超越了 Transformer++ 和混合模型,同时参数量减少高达 13%。在优化质量和缓存大小时,7/8 的 STAR 进化架构实现了比混合模型小 37%、比 Transformer 小 90% 的缓存,同时质量相当甚至更好。
在 Hyena Edge 的设计中,Liquid AI 团队就应用了 STAR 框架。他们从一个包含 16 个候选架构的初始种群开始,进行了 24 代的进化迭代。其搜索空间设计得非常丰富,包含了多种卷积算子的变体,这些变体主要受到 Hyena 架构的启发:
- Hyena(Full):在门控机制(Gating Mechanism)和 Hyena 内部卷积中都包含卷积操作。
- Hyena-X:排除了内部卷积。
- Hyena-Y:排除了特征组(门)中的卷积。
除了这三种主要的 Hyena 类型,搜索空间还考虑了它们学习到的短距离、显式卷积核的长度变化(从 3 到 128),总共构成了 18 种不同的卷积算子。此外,搜索空间还包括了分组查询注意力的变体(具有不同的 KV 头数量)和 SwiGLU(具有不同的内部宽度)等常见的 Transformer 组件。
在进化过程中,STAR 框架通过对每个候选架构在三星 S24 Ultra 上的初始延迟和内存占用进行性能分析,并结合模型在训练过程中的困惑度表现,不断地将架构种群向着效率-质量前沿(Efficiency-Quality Frontier)进行优化。
有意思的是,随着进化过程的推进,当架构接近效率-质量最优边界时,STAR 明显地偏爱选用 Hyena-Y 类型的卷积。这表明 Hyena-Y 卷积在延迟、内存和模型质量之间取得了更优越的平衡。
基于这一发现,最终的 Hyena Edge 架构在一个 GQA-Transformer++ 基准模型的基础上,将部分 GQA 算子替换为由 STAR 优化选出的 Hyena-Y 门控卷积。
而最终结果如基准测试所表明的,Hyena Edge 在提升效率的同时,保持了较高的模型质量,这对于性能和资源都受限的边缘设备应用而言是一个重要的特性。
Liquid AI 已表示计划在未来数月内开源包括 Hyena Edge 在内的一系列基础模型,其目标是构建能够适应从云端到边缘多种环境的 AI 系统。除了模型本身,其所展现出的设计方法,或许更值得我们的期待。
参考资料:
1.https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices
2.https://arxiv.org/abs/2411.17800
3.https://venturebeat.com/ai/liquid-ai-is-revolutionizing-llms-to-work-on-edge-devices-like-smartphones-with-new-hyena-edge-model/
运营/排版:何晨龙