ggerganov/llama.cpp

Pull Requests Commits

server : fix --threads-http arg

ggerganov committed 2 years ago

Verified 731e7528

imatrix : migrate to gpt_params (#7771)

ggerganov committed 2 years ago

Verified f83351f9

Added support for . (any character) token in grammar engine. (#6467)

HanClinto committed 2 years ago

Verified ad675e1c

README minor fixes (#7798) [no ci]

mattchediak committed 2 years ago

Verified a143c043

grammars: x{min,max} repetition operator (#6640)

ochafik committed 2 years ago

Verified 55b2d084

llama : add jina v2 base code (#7596)

JoanFM committed 2 years ago

Verified f5d7b268

docker : build only main and server in their images (#7782)

slaren committed 2 years ago

Verified 2d08b7fb

docker : add openmp lib (#7780)

slaren committed 2 years ago

Verified d67caea0

Fix encoding in python scripts (#7733)

Galunid committed 2 years ago

Verified 7672adee

CUDA: refactor mmq, dmmv, mmvq (#7716)

JohannesGaessler committed 2 years ago

Verified 7d1a378b

ggml : refactor rope norm/neox (#7634)

ggerganov committed 2 years ago

Verified 2b338967

readme : remove -ins (#7759)

arch-btw committed 2 years ago

Verified 9973e81c

Fix per token atrributes bits (#7749)

jaime-m-p committed 2 years ago

Verified c90dbe02

Allow number of nodes in CUDA graph to change (#7738)

agray3 committed 2 years ago

Verified b90dc566

common : refactor cli arg parsing (#7675)

ggerganov committed 2 years ago

Verified 1442677f

ggml : remove OpenCL (#7735)

ggerganov committed 2 years ago

Verified 554c247c

llama : remove beam search (#7736)

ggerganov committed 2 years ago

Verified 0cd6bd34

readme : remove obsolete Zig instructions (#7471)

ggerganov committed 2 years ago

Verified 5ca0944a

llama-bench : allow using a different printer for stderr with -oe (#7722)

slaren committed 2 years ago

Verified adc9ff38

Improve hipBLAS support in CMake (#7696)

daniandtheweb committed 2 years ago

Verified 987d743d

refine .gitignore (#7688)

zhouwg committed 2 years ago

Verified b226c122

Per token attributes (#7685)

jaime-m-p committed 2 years ago

Verified 3b38d486

ggml : prevent builds with -ffinite-math-only (#7726)

ggerganov committed 2 years ago

Verified 6d161694

llama : offload to RPC in addition to other backends (#7640)

rgerganov committed 2 years ago

Verified bde7cd3c

ggml : use OpenMP as a thread pool (#7606)

msy-kato committed 2 years ago

Verified a5735e44

make: fix debug options not being applied to NVCC (#7714)

JohannesGaessler committed 2 years ago

Verified 0b832d53

Vulkan Mixture of Experts (MoE) support (#7628)

0cc4m committed 2 years ago

Verified 3d7ebf63

cmake : add pkg-config spec file for llama.cpp (#7702)

andy-tai committed 2 years ago

Verified a10cda58

llama : MiniCPM support tied embeddings (#7664)

zkh2016 committed 2 years ago

Verified 6f28a333

llama : avoid double token-to-piece cache (#7654)

ggerganov committed 2 years ago

Verified 549279d8

Older