Speculative KV coding: losslessly compressing KV cache by up to ~4×

Software Development, Performance Engineering(fergusfinn.com)view on HackerNews

Speculative KV codinglossless compressionKV cachepredictor modelperformance engineeringlarge language models.

Author: kkm

Date: 6/4/2026

Article Summary:

The article discusses a new method for losslessly compressing KV caches in large language models, called Speculative KV coding, which can achieve up to ~4× compression using a predictor model.