为此,SwiftKV引入了SingleInputKV技术,利用模型层输出的相对稳定性,允许部分Transformer层跳过计算,直接生成后续所需的KV快取。这一技术不仅大幅降低计算量,还保持了模型的整体准确性,经测试平均仅损失约1%的准确性。
实验结果显示,SwiftKV在Llama 3.1 80亿参数和700亿参数模型上表现出色。对于高负载批次处理使用案例,SwiftKV可将总吞吐量提升至基准模型的2倍,而在即时互动使用案例中,则显著降低了首字元生成延迟(TTFT)与后续生成时间(TPOT)。这种效能提升对需要处理大量长输入的应用场景,如程式码完成、文本摘要和检索增强生成等应用特别适合。
此次开源还包含SwiftKV的推论模型检查点与知识蒸馏工作管线。Snowflake表示,未来将继续改进相关工具,进一步降低大型语言模型的运算成本与资源需求。对于企业来说,SwiftKV可在不牺牲效能的前提下,大幅提升生成式人工智慧应用的经济效益。