ochafik/llama.cpp

Pull Requests Commits

mtgpu: enable VMM (#9597)

yeahdongcn committed 1 year ago

Verified 7691654c

ci : fix docker build number and tag name (#9638)

ngxson committed 1 year ago

Verified ea9c32be

ggml : remove assert for AArch64 GEMV and GEMM Q4 kernels (#9217)

chaxu01 committed 1 year ago

Verified 1e436302

server : add more env vars, improve gen-docs (#9635)

ngxson committed 1 year ago

Verified afbbfaa5

llama : add IBM Granite MoE architecture (#9438)

gabe-l-hart committed 1 year ago

Verified 3d6bf691

cann: fix crash when llama-bench is running on multiple cann devices (#9627)

bachelor-dou committed 1 year ago

Verified 904837e0

ggml : add AVX512DQ requirement for AVX512 builds (#9622)

EZForever committed 1 year ago

Verified 70392f1f

ggerganov committed 1 year ago

Verified bb5f8199

examples : adapt to ggml.h changes (ggml/0)

ggerganov committed 1 year ago

Verified c0389316

llama : keep track of all EOG tokens in the vocab (#9609)

ggerganov committed 1 year ago

Verified 31ac5834

log : add CONT level for continuing previous log entry (#9610)

ggerganov committed 1 year ago

Verified cea1486e

server : add newline after chat example (#9616)

StrangeBytesDev committed 1 year ago

Verified 0aa15011

sampling : avoid expensive softmax during greedy sampling (#9605)

ggerganov committed 1 year ago

Verified b0f27361

threads: fix msvc build without openmp (#9615)

max-krasnyansky committed 1 year ago

Verified c087b6f1

cuda: add q8_0->f32 cpy operation (#9571)

Nekotekina committed 1 year ago

Verified 116efee0

server : add --no-context-shift option (#9607)

ngxson committed 1 year ago

Verified 0b3bf966

threads: improve ggml_barrier scaling with large number of threads (#9598)

max-krasnyansky committed 1 year ago

Verified f0c7b5ed

readme : add programmable prompt engine language CLI (#9599)

snowyu committed 1 year ago

Verified 1d48e98e

flake.lock: Update (#9586)

ggerganov committed 1 year ago

Verified f3979df7

ggml : AVX512 gemm for Q4_0_8_8 (#9532)

Srihari-mcw committed 1 year ago

Verified 1e7b9299

perplexity : remove extra new lines after chunks (#9596)

ggerganov committed 1 year ago

Verified 37f8c7b4

metal : use F32 prec for K*Q in vec FA (#9595)

ggerganov committed 1 year ago

Verified bf9c1013

Revert "[SYCL] fallback mmvq (#9088)" (#9579)

Akarshan Biswas committed 1 year ago

Verified e62e9789

musa: enable building fat binaries, enable unified memory, and disable Flash Attention on QY1 (MTT S80) (#9526)

yeahdongcn committed 1 year ago

Verified c35e586e

Fix merge error in #9454 (#9589)

MollySophia committed 1 year ago

Verified 912c331d

CUDA: enable Gemma FA for HIP/Pascal (#9581)

JohannesGaessler committed 1 year ago

Verified a5b57b08

llama: remove redundant loop when constructing ubatch (#9574)

shankarg87 committed 1 year ago

Verified ecd5d6b6

RWKV v6: RWKV_WKV op CUDA implementation (#9454)

MollySophia committed 1 year ago

Verified 2a63caaa

ggml-alloc : fix list of allocated tensors with GGML_ALLOCATOR_DEBUG (#9573)

slaren committed 1 year ago

Verified d09770ca

Update CUDA graph on scale change plus clear nodes/params (#9550)

agray3 committed 1 year ago

Verified 41f47787

Newer Older