Snowflake開源可縮減LLM推論時間50％的SwiftKV模型

Snowflake宣布SwiftKV的重点在于改进输入提示的处理过程，研究人员提到，这是企业大型语言模型应用中计算资源消耗的主要来源。在大型语言模型推论过程中，模型会生成大量用于注意力计算的KV快取，这些快取包含关键资讯（Key）和相关资料（Value），帮助模型在输入与输出之间建立关联。Snowflake的研究显示，多数企业工作负载的输入提示长度约为输出生成内容的10倍，而现有的KV快取压缩方法无法有效解决这部分的计算需求。

为此，SwiftKV引入了SingleInputKV技术，利用模型层输出的相对稳定性，允许部分Transformer层跳过计算，直接生成后续所需的KV快取。这一技术不仅大幅降低计算量，还保持了模型的整体准确性，经测试平均仅损失约1％的准确性。

实验结果显示，SwiftKV在Llama 3.1 80亿参数和700亿参数模型上表现出色。对于高负载批次处理使用案例，SwiftKV可将总吞吐量提升至基准模型的2倍，而在即时互动使用案例中，则显著降低了首字元生成延迟（TTFT）与后续生成时间（TPOT）。这种效能提升对需要处理大量长输入的应用场景，如程式码完成、文本摘要和检索增强生成等应用特别适合。

此次开源还包含SwiftKV的推论模型检查点与知识蒸馏工作管线。Snowflake表示，未来将继续改进相关工具，进一步降低大型语言模型的运算成本与资源需求。对于企业来说，SwiftKV可在不牺牲效能的前提下，大幅提升生成式人工智慧应用的经济效益。

Snowflake开源可缩减LLM推论时间50％的SwiftKV模型