llama.cpp
llama : refactor llama_context, llama_kv_cache, llm_build_context (v2)
#12181

Merged

llama : refactor llama_context, llama_kv_cache, llm_build_context (v2) #12181

ggerganov merged 16 commits into master from gg/llama-kv-cache-v2

github-actions added android

github-actions added examples

github-actions added python

github-actions added server

ggerganov force pushed to 900f2faa 287 days ago

ggerganov force pushed to 5bb8a26c 286 days ago

ggerganov force pushed to 250f398b 286 days ago

ggerganov force pushed 285 days ago

ggerganov force pushed to 905164fb 285 days ago

ggerganov force pushed 284 days ago

ggerganov force pushed to 62ba774b 284 days ago

ggerganov marked this pull request as ready for review 284 days ago

ggerganov requested a review from

ngxson 284 days ago

slaren approved these changes on 2025-03-11

ggerganov force pushed from 62ba774b 280 days ago

llama : refactor llama_context, llama_kv_cache, llm_build_context

55909257

graph : don't mutate the KV cache during defrag

75624a20

context : reduce virtuals + remove test function

5aa3518d

context : move interface implementation to source file + factory

0a6648ca

graph : move KV cache build functions to llama_context impl

cc9fa25a

graph : remove model reference from build_pooling

29c9ef56

graph : remove llama_model reference

bc825604

kv_cache : provide rope factors

ff95ffdf

graph : rework inputs to use only unique_ptr, remove attn input abstr…

562a4787

context : remove llama_context_i abstraction

d0cb3196

context : clean-up

a4fc4e8e

graph : clean-up

af9f6b8e

llama : remove redundant keywords (struct, enum)

226ff010

model : adapt gemma3

5fc6dbd9

ggerganov force pushed to 5fc6dbd9 279 days ago

graph : restore same attention ops as on master

70ef6530

llama : remove TODO + fix indent

31b8eab5

ggerganov merged e0dbec0b into master 278 days ago

ggerganov deleted the gg/llama-kv-cache-v2 branch 278 days ago

Reviewers

slaren

ngxson

Assignees

No one assigned

Labels

android examples python server

Milestone

No milestone

llama.cpp llama : refactor llama_context, llama_kv_cache, llm_build_context (v2) #12181 Merged

llama : refactor llama_context, llama_kv_cache, llm_build_context (v2) #12181

llama.cpp
llama : refactor llama_context, llama_kv_cache, llm_build_context (v2)
#12181

Merged