Сравнение NVIDIA H100 и AMD MI300X для RAG в 2026

DevOps/AI Engineer
#GPU #AMD #NVIDIA #RAG #Benchmark

Технические характеристики

ПараметрNVIDIA H100 80GBAMD MI300X 192GB
VRAM80 GB HBM3192 GB HBM3
Пропускная способность3.35 TB/s5.2 TB/s
FP16 TFLOPS19791300 (оценка)
Цена (рынок 2026)~$30 000~$20 000
ДоступностьДефицит, лизингРастёт

Для RAG (Retrieval-Augmented Generation)

RAG требует:

  1. Большой context length (документы, чанки)
  2. Высокий batch size (много параллельных запросов с разными документами)

MI300X даёт возможность загрузить модель Llama 3 70B + 32K контекст в один GPU (без тензорного параллелизма). Это упрощает инференс-сервер.

H100 — быстрее на малых батчах (до 4), но требует 2 GPU для большого контекста.

Софт и экосистема

  • NVIDIA: vLLM, TensorRT-LLM, Triton — работают “из коробки”.
  • AMD: ROCm + vLLM (экспериментально), поддержка HuggingFace accelerate. Многие оптимизации под H100 не переносятся.

Вердикт

  • H100 — если важна каждая миллисекунда и бюджет позволяет. Лидер по latency.
  • MI300X — если важна стоимость за гигабайт VRAM и вы готовы потратить 2-3 недели на калибровку.

Для RAG с документами на 16K+ токенов MI300X выглядит интереснее.