Packed-twin-inference doubles inference speed on MI50

AnalysisDevelopers

Jun 9, 1:50 AM

Packed-twin-inference doubles inference speed on MI50

Technique achieves 38.1 tokens/s on a single AMD MI50, up from 19.4, by running multiple computations side-by-side. Similar to speculative decoding but exploits unused compute without an extra model.

··Discuss

Jun 9, 1:50 AM