feedback
FP8 на Blackwell/Hopper на 150 Tflops становится быстрее с именем kernel содержащик "cutlass"

И ДРУГИЕ ОХУИТЕЛЬНЫЕ ОПТИМИЗАЦИИ)))
FP8 на Blackwell/Hopper: оптимизация производительности с использованием "cutlass"
Link copied