Сравнение NVIDIA H100 и AMD MI300X для RAG в 2026

Технические характеристики

RAG требует:

MI300X даёт возможность загрузить модель Llama 3 70B + 32K контекст в один GPU (без тензорного параллелизма). Это упрощает инференс-сервер.

H100 — быстрее на малых батчах (до 4), но требует 2 GPU для большого контекста.

NVIDIA: vLLM, TensorRT-LLM, Triton — работают “из коробки”.
AMD: ROCm + vLLM (экспериментально), поддержка HuggingFace accelerate. Многие оптимизации под H100 не переносятся.

H100 — если важна каждая миллисекунда и бюджет позволяет. Лидер по latency.
MI300X — если важна стоимость за гигабайт VRAM и вы готовы потратить 2-3 недели на калибровку.

Для RAG с документами на 16K+ токенов MI300X выглядит интереснее.