vllm-project / vllm

81,18317,321+121 todayPython

A high-throughput and memory-efficient inference and serving engine for LLMs

amdblackwellcudadeepseekdeepseek-v3gptgpt-ossinferencekimillamallmllm-servingmodel-servingmoeopenaipytorchqwenqwen3tputransformer