Merge branch 'master' into gpu-sampling

Commit

12 days ago

Merge branch 'master' into gpu-sampling Let's keep `master's` cumsum implementation for it's likely better AMD perf and add back pure-CUB-implementation in follow-up commit