text-generation-inference
30be1884 - Fix: don't apply post layernorm in SiglipVisionTransformer (#2459)

Commit

1 year ago

Fix: don't apply post layernorm in SiglipVisionTransformer (#2459) * Fix: don't apply post layernorm in SiglipVisionTransformer This fixes a bug with LLaVA Next when using Siglip as the vision model. LLaVA Next expects the output of the vision model to be the encoder outputs before layernorm (see original transformers implementation here: https://github.com/huggingface/transformers/blob/main/src/transformers/models/llava_next/modeling_llava_next.py#L813). This also makes Siglip consistent with the existing Clip implementation: https://github.com/huggingface/text-generation-inference/blob/main/server/text_generation_server/models/custom_modeling/clip.py#L613 * fix: adjust pali gemma for post layer norm and small refactors --------- Co-authored-by: Travis Addair <tgaddair@gmail.com>

References

#2459 - Fix: don't apply post layernorm in SiglipVisionTransformer

Author

drbh

Parents

f3c5d7d9

text-generation-inference 30be1884 - Fix: don't apply post layernorm in SiglipVisionTransformer (#2459)

text-generation-inference
30be1884 - Fix: don't apply post layernorm in SiglipVisionTransformer (#2459)