transformers
92a75ff6 - Mamba2 conversion script for original models (#32580)

Commit

1 year ago

Mamba2 conversion script for original models (#32580) * first attempt at allowing both conversions from codestral and from the original mamba ssm * allow fp16, seems default for mamba2 * dtype fix * simplify codestral check, dont overwrite pad/eos/bos when codestral * change file -> directory * use path join to be safe * style * apply code review - add util mamba2 tokenizer (gptneox with left padding) - add models dict * fix copies * add tokenizer to docs * empty commit to check for weird err * make conversion user dependent on model type, defaults for original paper models * small comment nit * remove norm_before_gate in conversion * simplify model dict by using shared keys directly + remove unnecessary attributes * fix tokenization: remove separate mamba2 tokenizer, add padding option as kwarg to gptneox one and reuse it for the conversion script * simplify even further as we pass padding side via **kwargs already

References

#32580 - Mamba2 conversion script for original models

Author

vasqu

Parents

39bfb2f5

transformers 92a75ff6 - Mamba2 conversion script for original models (#32580)

transformers
92a75ff6 - Mamba2 conversion script for original models (#32580)