PR #10171 metal : optimize FA kernels

metal : optimize FA kernels #10171

ggerganov merged 9 commits into master from gg/metal-fa-f16

Base automatically changed from gg/metal-fa-q to master 1 year ago

ggerganov force pushed to d0cff719 1 year ago

github-actions added Nvidia GPU

github-actions added ggml

ggerganov marked this pull request as ready for review 1 year ago

ggerganov force pushed from a797e5d7 1 year ago

github-actions added testing

github-actions added examples

ggerganov changed the title ~~metal : switch to F16 FA~~ metal : optimize FA kernels 1 year ago

ggerganov force pushed 1 year ago

ggml : add ggml_flash_attn_ext_get_prec

25e87730

metal : use F16 precision in FA kernels

7facc29d

metal : minor clean-up

2fccc8ac

metal : compile-guard bf16 FA kernels

120d5128

build : remove obsolete compile flag [no ci]

486a5eb8

metal : prevent int overflows [no ci]

5d1a10d2

ggerganov force pushed to 5d1a10d2 1 year ago

cuda : disable BF16 FA

bc143ecf

ggerganov force pushed 1 year ago

ggerganov force pushed to bc143ecf 1 year ago

metal : fix BF16 requirement for FA kernels

b89e71b1

make : clean-up [no ci]

a2385da5

ggerganov merged 841f27ab into master 1 year ago

Reviewers

No reviews

Assignees

No one assigned

Labels

testing Nvidia GPU examples ggml

Milestone

No milestone