Kubernetes и stateful inference: llm-d решает проблему маршрутизации и кэширования LLM-нагрузок
С ростом продакшен-нагрузок LLM становится ясно: классические механизмы Kubernetes не понимают природу inference. llm-d — это попытка закрыть этот разрыв на уровне платформы. Главное ограничение проявляется, когда inference выходит за пределы «статeless HTTP-сервиса». Запросы к LLM имеют разную стоимость: длина prompt, фаза генерации, попадание в KV-кэш. В Kubernetes это всё выглядит как одинаковые запросы. В … Читать далее