Snowflake开源可缩减LLM推论时间50%的SwiftKV模型

Snowflake宣布SwiftKV的重点在于改进输入提示的处理过程,研究人员提到,这是企业大型语言模型应用中计算资源消耗的主要来源。在大型语言模型推论过程中,模型会生成大量用于注意力计算的KV快取,这些快取包含关键资讯(Key)和相关资料(Value),帮助模型在输入与输出之间建立关联。Snowflake的研究显示,多数企业工作负载的输入提示长度约为输出生成内容的10倍,而现有的KV快取压缩方法无法有效解决这部分的计算需求。

为此,SwiftKV引入了SingleInputKV技术,利用模型层输出的相对稳定性,允许部分Transformer层跳过计算,直接生成后续所需的KV快取。这一技术不仅大幅降低计算量,还保持了模型的整体准确性,经测试平均仅损失约1%的准确性。

实验结果显示,SwiftKV在Llama 3.1 80亿参数和700亿参数模型上表现出色。对于高负载批次处理使用案例,SwiftKV可将总吞吐量提升至基准模型的2倍,而在即时互动使用案例中,则显著降低了首字元生成延迟(TTFT)与后续生成时间(TPOT)。这种效能提升对需要处理大量长输入的应用场景,如程式码完成、文本摘要和检索增强生成等应用特别适合。

此次开源还包含SwiftKV的推论模型检查点与知识蒸馏工作管线。Snowflake表示,未来将继续改进相关工具,进一步降低大型语言模型的运算成本与资源需求。对于企业来说,SwiftKV可在不牺牲效能的前提下,大幅提升生成式人工智慧应用的经济效益。