transformers
342e3f9f - Fix sliding window attention used in Gemma2FlashAttention2 (#32522)

Commit

1 year ago

Fix sliding window attention used in Gemma2FlashAttention2 (#32522) * fix sliding window attention (flash2) in gemma2 model * [run-slow] gemma * fix slicing attention_mask for flash_attn2 * fix slicing attention_mask when flash_attn is used * add missing comment * slice the last seq_len tokens in the key, value states * revert code of slicing key, value states

References

#32522 - Fix sliding window attention used in Gemma2FlashAttention2

Author

brcps12

Parents

8f2b6d5e

transformers 342e3f9f - Fix sliding window attention used in Gemma2FlashAttention2 (#32522)

transformers
342e3f9f - Fix sliding window attention used in Gemma2FlashAttention2 (#32522)