ochafik/llama.cpp

Pull Requests Commits

Update convert.py

ochafik committed 2 years ago

d27908c7

fast-quant: fix fopen mode in writable case (r+b)

ochafik committed 2 years ago

a64858a8

Update llama.cpp

ochafik committed 2 years ago

59d3067a

fast-quant: fix fopen mode in writable case

ochafik committed 2 years ago

024cec3d

fast-quant: fix loading of tensors (writable mmap!)

ochafik committed 2 years ago

276f2e10

fast-quant: fix crashes from --skeleton

ochafik committed 2 years ago

ce092923

Update convert.py

ochafik committed 2 years ago

8ce8c240

fast-quant: add skeleton & single tensor quant modes

ochafik committed 2 years ago

246d622f

add gguf_get_tensor_nbytes (factored out ggml_nbytes_impl & ggml_fill_nb helpers)

ochafik committed 2 years ago

71a062c5

readme : remove stray double quote (#7310)

danbev committed 2 years ago

Verified 8f7080bf

ggml : use dynamic thread scheduling for matrix multiplication (#6915)

kunnis committed 2 years ago

Verified e1b40ac3

Avoid unnecessarily disabling CUDA graphs (#7302)

agray3 committed 2 years ago

Verified dc020985

ggml : tag ggml_tensor::backend as deprecated (#7290)

slaren committed 2 years ago

Verified 344f9126

Add missing " (#7303)

AidanBeltonS committed 2 years ago

Verified 9a17ab91

embedding : free the batch after execution (#7297)

dm4 committed 2 years ago

Verified ea3b0590

ggerganov committed 2 years ago

Verified 29499bb5

ggml : add `ggml_upscale_ext` (ggml/814)

balisujohn committed 2 years ago

Verified 48aa8fd1

server bench: fix bench not waiting for model load (#7284)

JohannesGaessler committed 2 years ago

Verified 583fd6b0

script : sync ggml-rpc

ggerganov committed 2 years ago

Verified 9f773486

metal : support FA without mask + add asserts (#7278)

ggerganov committed 2 years ago

Verified e8a7fd4f

ggerganov committed 2 years ago

a5e3fde8

metal : tune soft_max number of threads (whisper/0)

ggerganov committed 2 years ago

f308ea70

ggml : try fix ppc64 (whisper/0)

ggerganov committed 2 years ago

c3c88f29

ggml : expose SSE3 and SSSE3 for MSVC when AVX is available (whisper/2128)

przemoc committed 2 years ago

182adefc

ggml : optimize for ppc64le using VSX intrinsics (ggml/784)

penghongbo committed 2 years ago

0d26d8cc

server: free sampling contexts on exit (#7264)

stevegrubb committed 2 years ago

Verified 4f026363

Revert "move ndk code to a new library (#6951)" (#7282)

mofosyne committed 2 years ago

Verified 1265c670

ggml : add RPC backend (#6829)

rgerganov committed 2 years ago

Verified 5e31828d

llama : disable pipeline parallelism with nkvo (#7265)

slaren committed 2 years ago

Verified 54160020

move ndk code to a new library (#6951)

eltonkola committed 2 years ago

Verified efc8f767

Older