PR #1530 CUDA performance optimizations

CUDA performance optimizations #1530

ggerganov merged 8 commits into ggml-org:master from JohannesGaessler:dfyz-xor-hack

JohannesGaessler added performance

JohannesGaessler commented on 2023-05-20

howard0su commented on 2023-05-20

ggerganov commented on 2023-05-20

JohannesGaessler force pushed to b00c58c3 2 years ago

JohannesGaessler force pushed 2 years ago

ggerganov approved these changes on 2023-05-21

xor hack

fbf5588a

block y dim

1a787101

loop unrolling

82cf01f8

Fixed cmake LLAMA_CUDA_BY option

17dc4c52

Removed hipblas compatibility code

5d0cf992

Define GGML_CUDA_DMMV_BLOCK_Y if not defined

e199938a

Fewer iters, more ops per iter

98bfee01

JohannesGaessler force pushed to 3698cd08 2 years ago

ggerganov approved these changes on 2023-05-23

Renamed DMMV X/Y compilation options

d45df1b1

JohannesGaessler force pushed from 3698cd08 to d45df1b1 2 years ago

ggerganov merged 1fcdcc28 into master 2 years ago

KerfuffleV2 assigned

KerfuffleV2 2 years ago

KerfuffleV2 unassigned

KerfuffleV2 2 years ago

Reviewers

ggerganov

SlyEcho

howard0su

Assignees

No one assigned

Labels

performance

Milestone

No milestone