onnxruntime
Refactoring of attention cuda kernel: move prepare qkv and concat_past_to_present
#17559

Merged

Refactoring of attention cuda kernel: move prepare qkv and concat_past_to_present #17559

tianleiwu merged 3 commits into main from tlwu/prepare_qkv_refactor

move prepare qkv and present

33a64056

tianleiwu marked this pull request as draft 2 years ago

update include

7a64f986

fix hipify

36260e8d

tianleiwu marked this pull request as ready for review 2 years ago

tianleiwu requested a review from

aciddelgado 2 years ago

tianleiwu requested a review from

kunal-vaishnavi 2 years ago

tianleiwu requested a review from

wangyems 2 years ago

aciddelgado approved these changes on 2023-09-15

tianleiwu merged adb0be45 into main 2 years ago

tianleiwu deleted the tlwu/prepare_qkv_refactor branch 2 years ago

tianleiwu added release:1.16.2

faxu added triage:approved

faxu added sdxl_llama

tianleiwu removed triage:approved

tianleiwu removed release:1.16.2

tianleiwu removed sdxl_llama

Reviewers

aciddelgado

kunal-vaishnavi

wangyems

Assignees

No one assigned

Labels

None yet

Milestone

No milestone