ggml-org/ggml

Pull Requests Commits

examples : update to ggml-opt and ggml-backend changes (#0)

ggerganov committed 1 year ago

Verified 7b007198

sync : llama.cpp

ggerganov committed 1 year ago

Verified 9333635a

opencl: remove unnecessary assert for `add` (llama/13257)

lhez committed 1 year ago

Verified b00cc559

llama/ggml: add LLM training support (llama/10544)

JohannesGaessler committed 1 year ago

Verified 153827fa

ggml-cpu: Integrate fp32=bf16xbf16 SME KleidiAI kernel (llama/13053)

eddnjjn committed 1 year ago

Verified 4fbd6495

CUDA: fix misaligned synchronization in FA (llama/13469)

JohannesGaessler committed 1 year ago

Verified 323c7b20

ggml : add mrope kernel for metal (llama/13457)

ngxson committed 1 year ago

Verified 5ce244e3

enable dpcpp nightly builds with libraries (llama/13406)

AD2605 committed 1 year ago

Verified 784f8521

CUDA: fix crash with partial offloading of MoE (llama/13439)

JohannesGaessler committed 1 year ago

Verified a1faf3aa

Add `--no-op-offload` to improve `-ot` pp perf in MoE models like llama4 400B (llama/13386)

hjc4869 committed 1 year ago

Verified 88174757

CUDA: fix race conditions FlashAttention kernels (llama/13438)

JohannesGaessler committed 1 year ago

Verified 6307c131

CUDA: fix FlashAttention on Turing (llama/13415)

JohannesGaessler committed 1 year ago

Verified 9a5d9e8a

vulkan: scalar flash attention implementation (llama/13324)

jeffbolznv committed 1 year ago

Verified 0a44a945

sycl : implementation of reordered Q4_0 MMVQ for Intel GPUs (llama/12858)

Alberto Cabrera Pérez committed 1 year ago

Verified e4479fa4

metal : optimize MoE for large batches (llama/13388)

ggerganov committed 1 year ago

Verified 602f02c5

CUDA: FA support for Deepseek (Ampere or newer) (llama/13306)

JohannesGaessler committed 1 year ago

Verified 39fecaac

CUDA: fix crash on large batch size for MoE models (llama/13384)

JohannesGaessler committed 1 year ago

Verified 0a6d037c

rpc : add rpc_msg_set_tensor_hash_req (llama/13353)

rgerganov committed 1 year ago

Verified 2402dbc3

vulkan: Allow up to 4096 elements for mul_mat_id row_ids (llama/13326)

jeffbolznv committed 1 year ago

Verified 98348a21

sycl: addressing non-contiguous src1 mul_mats (nc and batched) (llama/13343)

Alberto Cabrera Pérez committed 1 year ago

Verified 459f79d0

sam : support box prompt (#1206)

kwsp committed 1 year ago

Verified 153e8bcb

sync : llama.cpp

ggerganov committed 1 year ago

726dbd06

cuda : remove nrows_x in mul_mat_q_process_tile (llama/13325)

yeahdongcn committed 1 year ago

c2a1a197

CUDA: mix virt/real CUDA archs for GGML_NATIVE=OFF (llama/13135)

JohannesGaessler committed 1 year ago

d87814f9

SYCL: Disable reorder optimize by default and stop setting tensor extras when optimize is disabled (llama/13254)

qnixsynapse committed 1 year ago

97df1d4f

CUDA: fix bad asserts for partial offload (llama/13337)

JohannesGaessler committed 1 year ago

1985c3f6

CUDA: fix --split-mode row for MMQ (llama/13323)

JohannesGaessler committed 1 year ago

312bc0ea

CUDA: fix logic for clearing padding with -ngl 0 (llama/13320)

JohannesGaessler committed 1 year ago

31e199b2

SYCL: Disable mul_mat kernels for noncontiguous tensor b (llama/13308)

qnixsynapse committed 1 year ago

6d16455d

rpc : use backend registry, support dl backends (llama/13304)

slaren committed 1 year ago

4a3a4adf

Older