C-Kernel-Engine/doxygen/ckernel__orchestration_8h_source.html

 /**

  * @file ckernel_orchestration.h

  *

  * ===========================================================================

  * LEGACY HEADER - NOT USED IN v6.6

  * ===========================================================================

  *

  * This header declares v6.5 orchestration functions that are NO LONGER USED.

  * v6.6 uses IR Lower 3 + codegen instead of hardcoded orchestration.

  *

  * v6.6 Architecture (REPLACEMENT):

  *   - Kernel dispatch: version/v6.6/scripts/build_ir_v6_6.py + ckernel_codegen.c

  *   - Memory planning: version/v6.6/scripts/memory_planner_v6_6.py

  *   - Registry: version/v6.6/kernel_maps/KERNEL_REGISTRY.json

  *   - Kernel bindings: version/v6.6/kernel_maps/kernel_bindings.json

  *

  * Deprecated functions (NOT used in v6.6):

  *   - ck_layer_forward_rmsnorm_swiglu*      -> IR Lower 3 + mega_fused_* kernels

  *   - ck_qkv_project_head_major*            -> q_proj/k_proj/v_proj ops in IR

  *   - ck_attention_project_head_major*      -> out_proj op in IR

  *   - ck_mlp_swiglu_forward*                -> mlp_gate_up/mlp_down ops in IR

  *   - ck_gemm_nt_quant                      -> KERNEL_REGISTRY.json dispatch

  *   - ck_residual_add_token_major           -> residual_add op in IR

  *

  * To remove completely:

  *   1. Delete this header

  *   2. Delete ckernel_orchestration.c

  *   3. Remove from Makefile SRCS list

  *

  * Last used: v6.5

  * Deprecated: v6.6 (2026-02)

  * ===========================================================================

  */


 #ifndef CKERNEL_ORCHESTRATION_H

 #define CKERNEL_ORCHESTRATION_H


 #include <stddef.h>

 #include "ckernel_dtype.h"


 #ifdef __cplusplus

 extern "C" {

 #endif


 typedef struct {

     int tokens;

     int embed_dim;

     int aligned_embed_dim;

     int num_heads;

     int num_kv_heads;

     int head_dim;

     int aligned_head_dim;

     int aligned_context_window;

     int intermediate_dim;

     int aligned_intermediate_dim;

     float eps;

     int rope_pos_offset;


     const float *input;     /* [T x aligned_embed_dim] */

     const float *ln1_gamma; /* [aligned_embed_dim] */

     const float *ln2_gamma; /* [aligned_embed_dim] */


     const float *rope_cos; /* [max_seq_len x head_dim/2] */

     const float *rope_sin; /* [max_seq_len x head_dim/2] */


     const float *wq; /* [num_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bq; /* [num_heads x aligned_head_dim] */

     const float *wk; /* [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bk; /* [num_kv_heads x aligned_head_dim] */

     const float *wv; /* [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bv; /* [num_kv_heads x aligned_head_dim] */


     const float *wo; /* [H x aligned_embed_dim x aligned_head_dim] */

     const float *bo; /* [aligned_embed_dim] */


     const float *w1; /* [2*aligned_intermediate_dim x aligned_embed_dim] */

     const float *b1; /* [2*aligned_intermediate_dim] */

     const float *w2; /* [aligned_embed_dim x aligned_intermediate_dim] */

     const float *b2; /* [aligned_embed_dim] */


     float *ln1_out;   /* [T x aligned_embed_dim] */

     float *ln1_rstd;  /* [T] (optional) */

     float *q;         /* [num_heads x T x aligned_head_dim] */

     float *k;         /* [num_kv_heads x T x aligned_head_dim] */

     float *v;         /* [num_kv_heads x T x aligned_head_dim] */

     float *scores;    /* [num_heads x aligned_context_window x aligned_context_window] */

     float *attn_out;  /* [num_heads x T x aligned_head_dim] */

     float *proj_tmp;  /* [T x aligned_embed_dim] */

     float *proj_scratch; /* [T x aligned_embed_dim], required if num_heads > 1 */

     float *residual1; /* [T x aligned_embed_dim] */

     float *ln2_out;   /* [T x aligned_embed_dim] */

     float *ln2_rstd;  /* [T] (optional) */

     float *fc1_out;   /* [T x 2*aligned_intermediate_dim] */

     float *swiglu_out;/* [T x aligned_intermediate_dim] */

     float *mlp_out;   /* [T x aligned_embed_dim] */

     float *output;    /* [T x aligned_embed_dim] */

 } CKLayerForwardParams;


 typedef struct {

     int tokens;

     int embed_dim;

     int aligned_embed_dim;

     int num_heads;

     int num_kv_heads;

     int head_dim;

     int aligned_head_dim;

     int aligned_context_window;

     int intermediate_dim;

     int aligned_intermediate_dim;

     float eps;

     int rope_pos_offset;


     const float *input;     /* [T x aligned_embed_dim] */

     const float *ln1_gamma; /* [aligned_embed_dim] */

     const float *ln2_gamma; /* [aligned_embed_dim] */

     const float *ln1_out;   /* [T x aligned_embed_dim] */

     const float *ln1_rstd;  /* [T] */

     const float *ln2_out;   /* [T x aligned_embed_dim] */

     const float *ln2_rstd;  /* [T] */


     const float *rope_cos; /* [max_seq_len x head_dim/2] */

     const float *rope_sin; /* [max_seq_len x head_dim/2] */


     const float *wq; /* [num_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bq; /* [num_heads x aligned_head_dim] */

     const float *wk; /* [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bk; /* [num_kv_heads x aligned_head_dim] */

     const float *wv; /* [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bv; /* [num_kv_heads x aligned_head_dim] */


     const float *wo; /* [H x aligned_embed_dim x aligned_head_dim] */

     const float *bo; /* [aligned_embed_dim] */


     const float *w1; /* [2*aligned_intermediate_dim x aligned_embed_dim] */

     const float *b1; /* [2*aligned_intermediate_dim] */

     const float *w2; /* [aligned_embed_dim x aligned_intermediate_dim] */

     const float *b2; /* [aligned_embed_dim] */


     const float *q;         /* [num_heads x T x aligned_head_dim] */

     const float *k;         /* [num_kv_heads x T x aligned_head_dim] */

     const float *v;         /* [num_kv_heads x T x aligned_head_dim] */

     const float *scores;    /* [num_heads x aligned_context_window x aligned_context_window] */

     const float *attn_out;  /* [num_heads x T x aligned_head_dim] */

     const float *residual1; /* [T x aligned_embed_dim] */

     const float *fc1_out;   /* [T x 2*aligned_intermediate_dim] */

     const float *swiglu_out;/* [T x aligned_intermediate_dim] */


     float *d_output;    /* [T x aligned_embed_dim] */

     float *d_input;     /* [T x aligned_embed_dim] */

     float *d_ln1_gamma; /* [aligned_embed_dim] */

     float *d_ln2_gamma; /* [aligned_embed_dim] */

     float *d_wq;        /* [num_heads x aligned_head_dim x aligned_embed_dim] */

     float *d_bq;        /* [num_heads x aligned_head_dim] */

     float *d_wk;        /* [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     float *d_bk;        /* [num_kv_heads x aligned_head_dim] */

     float *d_wv;        /* [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     float *d_bv;        /* [num_kv_heads x aligned_head_dim] */

     float *d_wo;        /* [H x aligned_embed_dim x aligned_head_dim] */

     float *d_bo;        /* [aligned_embed_dim] */

     float *d_w1;        /* [2*aligned_intermediate_dim x aligned_embed_dim] */

     float *d_b1;        /* [2*aligned_intermediate_dim] */

     float *d_w2;        /* [aligned_embed_dim x aligned_intermediate_dim] */

     float *d_b2;        /* [aligned_embed_dim] */


     float *d_ln1_out;    /* [T x aligned_embed_dim] */

     float *d_q;          /* [num_heads x T x aligned_head_dim] */

     float *d_k;          /* [num_kv_heads x T x aligned_head_dim] */

     float *d_v;          /* [num_kv_heads x T x aligned_head_dim] */

     float *d_scores;     /* [num_heads x aligned_context_window x aligned_context_window] */

     float *d_attn_out;   /* [num_heads x T x aligned_head_dim] */

     float *d_proj_tmp;   /* [T x aligned_embed_dim] */

     float *d_residual1;  /* [T x aligned_embed_dim] */

     float *d_ln2_out;    /* [T x aligned_embed_dim] */

     float *d_fc1_out;    /* [T x 2*aligned_intermediate_dim] */

     float *d_swiglu_out; /* [T x aligned_intermediate_dim] */

     float *d_mlp_out;    /* [T x aligned_embed_dim] */

 } CKLayerBackwardParams;


 void ck_residual_add_token_major(const float *a,

                                  const float *b,

                                  float *out,

                                  int tokens,

                                  int aligned_embed_dim);


 /* Generic quantized GEMM dispatcher (NT layout) */

 void ck_gemm_nt_quant(const float *A,

                       const void *B,

                       const float *bias,

                       float *C,

                       int M, int N, int K,

                       CKDataType dtype);


 void ck_qkv_project_head_major(const float *input,

                                const float *wq, const float *bq,

                                const float *wk, const float *bk,

                                const float *wv, const float *bv,

                                float *q, float *k, float *v,

                                int tokens,

                                int kv_stride_tokens,

                                int aligned_embed_dim,

                                int num_heads,

                                int num_kv_heads,

                                int aligned_head_dim);


 void ck_qkv_project_head_major_token(const float *input_row,

                                      const float *wq, const float *bq,

                                      const float *wk, const float *bk,

                                      const float *wv, const float *bv,

                                      float *q_token,

                                      float *k_token,

                                      float *v_token,

                                      int aligned_embed_dim,

                                      int num_heads,

                                      int num_kv_heads,

                                      int aligned_head_dim);


 void ck_attention_project_head_major(const float *attn_out,

                                      const float *wo,

                                      const float *bo,

                                      float *out,

                                      float *scratch,

                                      int tokens,

                                      int aligned_embed_dim,

                                      int num_heads,

                                      int aligned_head_dim);


 void ck_attention_project_head_major_decode_token(const float *attn_token,

                                                   const float *wo,

                                                   const float *bo,

                                                   float *out_token,

                                                   int embed_dim,

                                                   int aligned_embed_dim,

                                                   int num_heads,

                                                   int aligned_head_dim);


 void ck_mlp_swiglu_forward(const float *input,

                            const float *w1,

                            const float *b1,

                            const float *w2,

                            const float *b2,

                            float *fc1_out,

                            float *swiglu_out,

                            float *output,

                            int tokens,

                            int aligned_embed_dim,

                            int aligned_intermediate_dim);


 void ck_mlp_swiglu_forward_fused_token(const float *input_row,

                                        const float *w1,

                                        const float *b1,

                                        const float *w2,

                                        const float *b2,

                                        float *swiglu_row,

                                        float *output_row,

                                        int aligned_embed_dim,

                                        int aligned_intermediate_dim);


 // Fully fused MLP for decode (single token).

 // All three projections (gate, up, down) fused into one kernel.

 // Eliminates DRAM round-trip for intermediate swiglu values.

 // Best for AVX-512 systems with many cores (24+).

 void ck_mlp_swiglu_forward_fully_fused_token(const float *input_row,

                                               const float *w1,

                                               const float *b1,

                                               const float *w2,

                                               const float *b2,

                                               float *output_row,

                                               int aligned_embed_dim,

                                               int aligned_intermediate_dim);


 void ck_layer_forward_rmsnorm_swiglu(const CKLayerForwardParams *p);

 void ck_layer_forward_rmsnorm_swiglu_ref(const CKLayerForwardParams *p);


 // Decode-style layer forward for autoregressive generation.

 //

 // Computes only a single token at `token_index`, while attending over the

 // KV-cache stored in `p->k`/`p->v` in head-major cache layout:

 //   k/v: [num_kv_heads, cache_capacity, aligned_head_dim]

 //

 // The caller is responsible for:

 //   - ensuring `p->k`/`p->v` already contain tokens [0..token_index-1]

 //   - setting `p->rope_pos_offset` to the absolute position for this token

 //   - passing a matching `cache_capacity` (usually model context_window)

 void ck_layer_forward_rmsnorm_swiglu_decode(const CKLayerForwardParams *p,

                                            int token_index,

                                            int cache_capacity);


 // Decode-style layer forward using fused SwiGLU (gate+up) matvec.

 // Inference-only fast path: produces the same outputs as the unfused decode path.

 void ck_layer_forward_rmsnorm_swiglu_decode_fused(const CKLayerForwardParams *p,

                                                   int token_index,

                                                   int cache_capacity);


 // Decode-style layer forward using fused attention (QKV+RoPE+KV+attention+Wo).

 // Optionally pairs with fused SwiGLU via ck_layer_forward_rmsnorm_swiglu_decode_fused_attn_mlp.

 void ck_layer_forward_rmsnorm_swiglu_decode_fused_attn(const CKLayerForwardParams *p,

                                                        int token_index,

                                                        int cache_capacity);


 void ck_layer_forward_rmsnorm_swiglu_decode_fused_attn_mlp(const CKLayerForwardParams *p,

                                                            int token_index,

                                                            int cache_capacity);


 /* ============================================================================

  * Quantized (Q4_K / Q4_K_M) inference orchestration

  *

  * These entry points mirror the fp32 paths but accept weight matrices stored

  * in GGML-compatible Q4_K blocks. Activations remain fp32 by default; the

  * decode path can switch to Q8_K activations via CK_Q8K_ACTIVATIONS=1 (or

  * auto-enable when strict parity is off).

  *

  * Design note:

  *  - If you enable Q4_K weights, ensure the relevant K dimensions are a

  *    multiple of 256 (QK_K). The engine keeps the quantized weights in their

  *    compact block form and dequantizes on-the-fly inside GEMM/GEMV kernels.

  * ============================================================================ */


 typedef struct {

     int tokens;

     int embed_dim;

     int aligned_embed_dim;

     int num_heads;

     int num_kv_heads;

     int head_dim;

     int aligned_head_dim;

     int aligned_context_window;

     int intermediate_dim;

     int aligned_intermediate_dim;

     float eps;

     int rope_pos_offset;


     const float *input;     /* [T x aligned_embed_dim] */

     const float *ln1_gamma; /* [aligned_embed_dim] */

     const float *ln2_gamma; /* [aligned_embed_dim] */


     const float *rope_cos; /* [max_seq_len x head_dim/2] */

     const float *rope_sin; /* [max_seq_len x head_dim/2] */


     const void *wq;  /* Q4_K: [num_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bq; /* [num_heads x aligned_head_dim] */

     const void *wk;  /* Q4_K: [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bk; /* [num_kv_heads x aligned_head_dim] */

     const void *wv;  /* Q4_K: [num_kv_heads x aligned_head_dim x aligned_embed_dim] */

     const float *bv; /* [num_kv_heads x aligned_head_dim] */


     const void *wo;  /* Q4_K: [aligned_embed_dim x (num_heads*aligned_head_dim)] */

     const float *bo; /* [aligned_embed_dim] */


     const void *w1;  /* Q4_K: [2*aligned_intermediate_dim x aligned_embed_dim] */

     const float *b1; /* [2*aligned_intermediate_dim] */

     const void *w2;  /* Q4_K: [aligned_embed_dim x aligned_intermediate_dim] */

     const float *b2; /* [aligned_embed_dim] */


     float *ln1_out;   /* [T x aligned_embed_dim] */

     float *ln1_rstd;  /* [T] (optional) */

     float *q;         /* [num_heads x T x aligned_head_dim] */

     float *k;         /* [num_kv_heads x T x aligned_head_dim] */

     float *v;         /* [num_kv_heads x T x aligned_head_dim] */

     float *scores;    /* [num_heads x aligned_context_window x aligned_context_window] */

     float *attn_out;  /* [num_heads x T x aligned_head_dim] */

     float *proj_tmp;  /* [T x aligned_embed_dim] */

     float *proj_scratch; /* [T x aligned_embed_dim], required (transpose buffer) */

     float *residual1; /* [T x aligned_embed_dim] */

     float *ln2_out;   /* [T x aligned_embed_dim] */

     float *ln2_rstd;  /* [T] (optional) */

     float *fc1_out;   /* [T x 2*aligned_intermediate_dim] */

     float *swiglu_out;/* [T x aligned_intermediate_dim] */

     float *mlp_out;   /* [T x aligned_embed_dim] */

     float *output;    /* [T x aligned_embed_dim] */


     CKDataType wq_dtype;

     CKDataType wk_dtype;

     CKDataType wv_dtype;

     CKDataType wo_dtype;

     CKDataType w1_dtype;

     CKDataType w2_dtype;

 } CKLayerForwardParamsQ4K;


 void ck_layer_forward_rmsnorm_swiglu_q4_k(const CKLayerForwardParamsQ4K *p);

 void ck_layer_forward_rmsnorm_swiglu_decode_q4_k(const CKLayerForwardParamsQ4K *p,

                                                  int token_index,

                                                  int cache_capacity);

 void ck_layer_forward_rmsnorm_swiglu_quant(const CKLayerForwardParamsQ4K *p);

 void ck_layer_forward_rmsnorm_swiglu_decode_quant(const CKLayerForwardParamsQ4K *p,

                                                   int token_index,

                                                   int cache_capacity);


 void ck_residual_add_backward(const float *d_out,

                               float *d_a,

                               float *d_b,

                               int tokens,

                               int aligned_embed_dim);


 void ck_attention_project_head_major_backward(const float *d_out,

                                               const float *attn_out,

                                               const float *wo,

                                               float *d_attn_out,

                                               float *d_wo,

                                               float *d_bo,

                                               int tokens,

                                               int aligned_embed_dim,

                                               int num_heads,

                                               int aligned_head_dim);


 void ck_qkv_project_head_major_backward(const float *d_q,

                                         const float *d_k,

                                         const float *d_v,

                                         const float *input,

                                         const float *wq,

                                         const float *bq,

                                         const float *wk,

                                         const float *bk,

                                         const float *wv,

                                         const float *bv,

                                         float *d_input,

                                         float *d_wq,

                                         float *d_bq,

                                         float *d_wk,

                                         float *d_bk,

                                         float *d_wv,

                                         float *d_bv,

                                         float *scratch,

                                         int tokens,

                                         int aligned_embed_dim,

                                         int num_heads,

                                         int num_kv_heads,

                                         int aligned_head_dim,

                                         int num_threads);


 void ck_layer_backward_rmsnorm_swiglu(const CKLayerBackwardParams *p);


 #ifdef __cplusplus

 } // extern "C"

 #endif


 #endif /* CKERNEL_ORCHESTRATION_H */

ckernel_dtype.h

CKDataType
CKDataType
Supported data types in C-Kernel-Engine.
Definition: ckernel_dtype.h:27

ck_layer_backward_rmsnorm_swiglu
void ck_layer_backward_rmsnorm_swiglu(const CKLayerBackwardParams *p)
Definition: ckernel_orchestration.c:2677

ck_mlp_swiglu_forward_fused_token
void ck_mlp_swiglu_forward_fused_token(const float *input_row, const float *w1, const float *b1, const float *w2, const float *b2, float *swiglu_row, float *output_row, int aligned_embed_dim, int aligned_intermediate_dim)
Definition: ckernel_orchestration.c:1212

ck_attention_project_head_major
void ck_attention_project_head_major(const float *attn_out, const float *wo, const float *bo, float *out, float *scratch, int tokens, int aligned_embed_dim, int num_heads, int aligned_head_dim)
Definition: ckernel_orchestration.c:730

ck_mlp_swiglu_forward
void ck_mlp_swiglu_forward(const float *input, const float *w1, const float *b1, const float *w2, const float *b2, float *fc1_out, float *swiglu_out, float *output, int tokens, int aligned_embed_dim, int aligned_intermediate_dim)
Definition: ckernel_orchestration.c:952

ck_residual_add_backward
void ck_residual_add_backward(const float *d_out, float *d_a, float *d_b, int tokens, int aligned_embed_dim)
Definition: ckernel_orchestration.c:151

ck_layer_forward_rmsnorm_swiglu_quant
void ck_layer_forward_rmsnorm_swiglu_quant(const CKLayerForwardParamsQ4K *p)
Definition: ckernel_orchestration.c:2401

ck_layer_forward_rmsnorm_swiglu_decode_fused_attn_mlp
void ck_layer_forward_rmsnorm_swiglu_decode_fused_attn_mlp(const CKLayerForwardParams *p, int token_index, int cache_capacity)
Definition: attention_decode_fused.c:353

ck_mlp_swiglu_forward_fully_fused_token
void ck_mlp_swiglu_forward_fully_fused_token(const float *input_row, const float *w1, const float *b1, const float *w2, const float *b2, float *output_row, int aligned_embed_dim, int aligned_intermediate_dim)
Definition: ckernel_orchestration.c:1247

ck_layer_forward_rmsnorm_swiglu_decode
void ck_layer_forward_rmsnorm_swiglu_decode(const CKLayerForwardParams *p, int token_index, int cache_capacity)
Definition: ckernel_orchestration.c:1289

ck_layer_forward_rmsnorm_swiglu_q4_k
void ck_layer_forward_rmsnorm_swiglu_q4_k(const CKLayerForwardParamsQ4K *p)
Definition: ckernel_orchestration.c:1910

ck_qkv_project_head_major
void ck_qkv_project_head_major(const float *input, const float *wq, const float *bq, const float *wk, const float *bk, const float *wv, const float *bv, float *q, float *k, float *v, int tokens, int kv_stride_tokens, int aligned_embed_dim, int num_heads, int num_kv_heads, int aligned_head_dim)
Definition: ckernel_orchestration.c:168

ck_gemm_nt_quant
void ck_gemm_nt_quant(const float *A, const void *B, const float *bias, float *C, int M, int N, int K, CKDataType dtype)
Definition: ckernel_orchestration.c:335

ck_qkv_project_head_major_backward
void ck_qkv_project_head_major_backward(const float *d_q, const float *d_k, const float *d_v, const float *input, const float *wq, const float *bq, const float *wk, const float *bk, const float *wv, const float *bv, float *d_input, float *d_wq, float *d_bq, float *d_wk, float *d_bk, float *d_wv, float *d_bv, float *scratch, int tokens, int aligned_embed_dim, int num_heads, int num_kv_heads, int aligned_head_dim, int num_threads)
Definition: ckernel_orchestration.c:856

ck_residual_add_token_major
void ck_residual_add_token_major(const float *a, const float *b, float *out, int tokens, int aligned_embed_dim)
Definition: ckernel_orchestration.c:139

ck_qkv_project_head_major_token
void ck_qkv_project_head_major_token(const float *input_row, const float *wq, const float *bq, const float *wk, const float *bk, const float *wv, const float *bv, float *q_token, float *k_token, float *v_token, int aligned_embed_dim, int num_heads, int num_kv_heads, int aligned_head_dim)
Definition: attention_decode_fused.c:78

ck_layer_forward_rmsnorm_swiglu
void ck_layer_forward_rmsnorm_swiglu(const CKLayerForwardParams *p)
Definition: ckernel_orchestration.c:996

ck_layer_forward_rmsnorm_swiglu_decode_fused
void ck_layer_forward_rmsnorm_swiglu_decode_fused(const CKLayerForwardParams *p, int token_index, int cache_capacity)
Definition: ckernel_orchestration.c:1449

ck_layer_forward_rmsnorm_swiglu_decode_q4_k
void ck_layer_forward_rmsnorm_swiglu_decode_q4_k(const CKLayerForwardParamsQ4K *p, int token_index, int cache_capacity)
Definition: ckernel_orchestration.c:2117

ck_layer_forward_rmsnorm_swiglu_ref
void ck_layer_forward_rmsnorm_swiglu_ref(const CKLayerForwardParams *p)
Definition: ckernel_orchestration.c:1104

ck_layer_forward_rmsnorm_swiglu_decode_fused_attn
void ck_layer_forward_rmsnorm_swiglu_decode_fused_attn(const CKLayerForwardParams *p, int token_index, int cache_capacity)
Definition: attention_decode_fused.c:343

ck_attention_project_head_major_backward
void ck_attention_project_head_major_backward(const float *d_out, const float *attn_out, const float *wo, float *d_attn_out, float *d_wo, float *d_bo, int tokens, int aligned_embed_dim, int num_heads, int aligned_head_dim)
Definition: ckernel_orchestration.c:800

ck_attention_project_head_major_decode_token
void ck_attention_project_head_major_decode_token(const float *attn_token, const float *wo, const float *bo, float *out_token, int embed_dim, int aligned_embed_dim, int num_heads, int aligned_head_dim)
Definition: attention_decode_fused.c:115

ck_layer_forward_rmsnorm_swiglu_decode_quant
void ck_layer_forward_rmsnorm_swiglu_decode_quant(const CKLayerForwardParamsQ4K *p, int token_index, int cache_capacity)
Definition: ckernel_orchestration.c:2512

C
#define C(color)
Definition: show_config.c:39

CKLayerBackwardParams
Definition: ckernel_orchestration.h:99

CKLayerBackwardParams::d_input
float * d_input
Definition: ckernel_orchestration.h:149

CKLayerBackwardParams::bv
const float * bv
Definition: ckernel_orchestration.h:129

CKLayerBackwardParams::b2
const float * b2
Definition: ckernel_orchestration.h:137

CKLayerBackwardParams::embed_dim
int embed_dim
Definition: ckernel_orchestration.h:101

CKLayerBackwardParams::wq
const float * wq
Definition: ckernel_orchestration.h:124

CKLayerBackwardParams::d_wv
float * d_wv
Definition: ckernel_orchestration.h:156

CKLayerBackwardParams::d_ln1_out
float * d_ln1_out
Definition: ckernel_orchestration.h:165

CKLayerBackwardParams::d_attn_out
float * d_attn_out
Definition: ckernel_orchestration.h:170

CKLayerBackwardParams::tokens
int tokens
Definition: ckernel_orchestration.h:100

CKLayerBackwardParams::wv
const float * wv
Definition: ckernel_orchestration.h:128

CKLayerBackwardParams::bk
const float * bk
Definition: ckernel_orchestration.h:127

CKLayerBackwardParams::d_proj_tmp
float * d_proj_tmp
Definition: ckernel_orchestration.h:171

CKLayerBackwardParams::d_residual1
float * d_residual1
Definition: ckernel_orchestration.h:172

CKLayerBackwardParams::ln2_rstd
const float * ln2_rstd
Definition: ckernel_orchestration.h:119

CKLayerBackwardParams::wk
const float * wk
Definition: ckernel_orchestration.h:126

CKLayerBackwardParams::d_w1
float * d_w1
Definition: ckernel_orchestration.h:160

CKLayerBackwardParams::intermediate_dim
int intermediate_dim
Definition: ckernel_orchestration.h:108

CKLayerBackwardParams::ln2_out
const float * ln2_out
Definition: ckernel_orchestration.h:118

CKLayerBackwardParams::d_wq
float * d_wq
Definition: ckernel_orchestration.h:152

CKLayerBackwardParams::d_ln1_gamma
float * d_ln1_gamma
Definition: ckernel_orchestration.h:150

CKLayerBackwardParams::d_q
float * d_q
Definition: ckernel_orchestration.h:166

CKLayerBackwardParams::d_w2
float * d_w2
Definition: ckernel_orchestration.h:162

CKLayerBackwardParams::num_heads
int num_heads
Definition: ckernel_orchestration.h:103

CKLayerBackwardParams::d_k
float * d_k
Definition: ckernel_orchestration.h:167

CKLayerBackwardParams::wo
const float * wo
Definition: ckernel_orchestration.h:131

CKLayerBackwardParams::k
const float * k
Definition: ckernel_orchestration.h:140

CKLayerBackwardParams::bq
const float * bq
Definition: ckernel_orchestration.h:125

CKLayerBackwardParams::d_b2
float * d_b2
Definition: ckernel_orchestration.h:163

CKLayerBackwardParams::ln2_gamma
const float * ln2_gamma
Definition: ckernel_orchestration.h:115

CKLayerBackwardParams::ln1_rstd
const float * ln1_rstd
Definition: ckernel_orchestration.h:117

CKLayerBackwardParams::scores
const float * scores
Definition: ckernel_orchestration.h:142

CKLayerBackwardParams::d_bq
float * d_bq
Definition: ckernel_orchestration.h:153

CKLayerBackwardParams::swiglu_out
const float * swiglu_out
Definition: ckernel_orchestration.h:146

CKLayerBackwardParams::ln1_out
const float * ln1_out
Definition: ckernel_orchestration.h:116

CKLayerBackwardParams::q
const float * q
Definition: ckernel_orchestration.h:139

CKLayerBackwardParams::d_mlp_out
float * d_mlp_out
Definition: ckernel_orchestration.h:176

CKLayerBackwardParams::ln1_gamma
const float * ln1_gamma
Definition: ckernel_orchestration.h:114

CKLayerBackwardParams::rope_pos_offset
int rope_pos_offset
Definition: ckernel_orchestration.h:111

CKLayerBackwardParams::attn_out
const float * attn_out
Definition: ckernel_orchestration.h:143

CKLayerBackwardParams::d_wk
float * d_wk
Definition: ckernel_orchestration.h:154

CKLayerBackwardParams::fc1_out
const float * fc1_out
Definition: ckernel_orchestration.h:145

CKLayerBackwardParams::eps
float eps
Definition: ckernel_orchestration.h:110

CKLayerBackwardParams::d_v
float * d_v
Definition: ckernel_orchestration.h:168

CKLayerBackwardParams::d_b1
float * d_b1
Definition: ckernel_orchestration.h:161

CKLayerBackwardParams::residual1
const float * residual1
Definition: ckernel_orchestration.h:144

CKLayerBackwardParams::aligned_context_window
int aligned_context_window
Definition: ckernel_orchestration.h:107

CKLayerBackwardParams::d_ln2_gamma
float * d_ln2_gamma
Definition: ckernel_orchestration.h:151

CKLayerBackwardParams::d_fc1_out
float * d_fc1_out
Definition: ckernel_orchestration.h:174

CKLayerBackwardParams::d_ln2_out
float * d_ln2_out
Definition: ckernel_orchestration.h:173

CKLayerBackwardParams::aligned_intermediate_dim
int aligned_intermediate_dim
Definition: ckernel_orchestration.h:109

CKLayerBackwardParams::d_bv
float * d_bv
Definition: ckernel_orchestration.h:157

CKLayerBackwardParams::d_bk
float * d_bk
Definition: ckernel_orchestration.h:155

CKLayerBackwardParams::input
const float * input
Definition: ckernel_orchestration.h:113

CKLayerBackwardParams::d_bo
float * d_bo
Definition: ckernel_orchestration.h:159

CKLayerBackwardParams::rope_cos
const float * rope_cos
Definition: ckernel_orchestration.h:121

CKLayerBackwardParams::w1
const float * w1
Definition: ckernel_orchestration.h:134

CKLayerBackwardParams::bo
const float * bo
Definition: ckernel_orchestration.h:132

CKLayerBackwardParams::d_output
float * d_output
Definition: ckernel_orchestration.h:148

CKLayerBackwardParams::head_dim
int head_dim
Definition: ckernel_orchestration.h:105

CKLayerBackwardParams::d_wo
float * d_wo
Definition: ckernel_orchestration.h:158

CKLayerBackwardParams::d_swiglu_out
float * d_swiglu_out
Definition: ckernel_orchestration.h:175

CKLayerBackwardParams::b1
const float * b1
Definition: ckernel_orchestration.h:135

CKLayerBackwardParams::v
const float * v
Definition: ckernel_orchestration.h:141

CKLayerBackwardParams::aligned_embed_dim
int aligned_embed_dim
Definition: ckernel_orchestration.h:102

CKLayerBackwardParams::aligned_head_dim
int aligned_head_dim
Definition: ckernel_orchestration.h:106

CKLayerBackwardParams::w2
const float * w2
Definition: ckernel_orchestration.h:136

CKLayerBackwardParams::rope_sin
const float * rope_sin
Definition: ckernel_orchestration.h:122

CKLayerBackwardParams::d_scores
float * d_scores
Definition: ckernel_orchestration.h:169

CKLayerBackwardParams::num_kv_heads
int num_kv_heads
Definition: ckernel_orchestration.h:104

CKLayerForwardParamsQ4K
Definition: ckernel_orchestration.h:318

CKLayerForwardParamsQ4K::eps
float eps
Definition: ckernel_orchestration.h:329

CKLayerForwardParamsQ4K::aligned_embed_dim
int aligned_embed_dim
Definition: ckernel_orchestration.h:321

CKLayerForwardParamsQ4K::w2_dtype
CKDataType w2_dtype
Definition: ckernel_orchestration.h:376

CKLayerForwardParamsQ4K::wk_dtype
CKDataType wk_dtype
Definition: ckernel_orchestration.h:372

CKLayerForwardParamsQ4K::rope_pos_offset
int rope_pos_offset
Definition: ckernel_orchestration.h:330

CKLayerForwardParamsQ4K::bv
const float * bv
Definition: ckernel_orchestration.h:344

CKLayerForwardParamsQ4K::wv_dtype
CKDataType wv_dtype
Definition: ckernel_orchestration.h:373

CKLayerForwardParamsQ4K::ln2_rstd
float * ln2_rstd
Definition: ckernel_orchestration.h:365

CKLayerForwardParamsQ4K::output
float * output
Definition: ckernel_orchestration.h:369

CKLayerForwardParamsQ4K::b1
const float * b1
Definition: ckernel_orchestration.h:350

CKLayerForwardParamsQ4K::wq
const void * wq
Definition: ckernel_orchestration.h:339

CKLayerForwardParamsQ4K::rope_cos
const float * rope_cos
Definition: ckernel_orchestration.h:336

CKLayerForwardParamsQ4K::k
float * k
Definition: ckernel_orchestration.h:357

CKLayerForwardParamsQ4K::attn_out
float * attn_out
Definition: ckernel_orchestration.h:360

CKLayerForwardParamsQ4K::wv
const void * wv
Definition: ckernel_orchestration.h:343

CKLayerForwardParamsQ4K::aligned_intermediate_dim
int aligned_intermediate_dim
Definition: ckernel_orchestration.h:328

CKLayerForwardParamsQ4K::ln2_gamma
const float * ln2_gamma
Definition: ckernel_orchestration.h:334

CKLayerForwardParamsQ4K::wo
const void * wo
Definition: ckernel_orchestration.h:346

CKLayerForwardParamsQ4K::bq
const float * bq
Definition: ckernel_orchestration.h:340

CKLayerForwardParamsQ4K::num_heads
int num_heads
Definition: ckernel_orchestration.h:322

CKLayerForwardParamsQ4K::q
float * q
Definition: ckernel_orchestration.h:356

CKLayerForwardParamsQ4K::ln1_rstd
float * ln1_rstd
Definition: ckernel_orchestration.h:355

CKLayerForwardParamsQ4K::proj_tmp
float * proj_tmp
Definition: ckernel_orchestration.h:361

CKLayerForwardParamsQ4K::tokens
int tokens
Definition: ckernel_orchestration.h:319

CKLayerForwardParamsQ4K::b2
const float * b2
Definition: ckernel_orchestration.h:352

CKLayerForwardParamsQ4K::rope_sin
const float * rope_sin
Definition: ckernel_orchestration.h:337

CKLayerForwardParamsQ4K::mlp_out
float * mlp_out
Definition: ckernel_orchestration.h:368

CKLayerForwardParamsQ4K::fc1_out
float * fc1_out
Definition: ckernel_orchestration.h:366

CKLayerForwardParamsQ4K::residual1
float * residual1
Definition: ckernel_orchestration.h:363

CKLayerForwardParamsQ4K::v
float * v
Definition: ckernel_orchestration.h:358

CKLayerForwardParamsQ4K::ln1_out
float * ln1_out
Definition: ckernel_orchestration.h:354

CKLayerForwardParamsQ4K::bk
const float * bk
Definition: ckernel_orchestration.h:342

CKLayerForwardParamsQ4K::head_dim
int head_dim
Definition: ckernel_orchestration.h:324

CKLayerForwardParamsQ4K::swiglu_out
float * swiglu_out
Definition: ckernel_orchestration.h:367

CKLayerForwardParamsQ4K::scores
float * scores
Definition: ckernel_orchestration.h:359

CKLayerForwardParamsQ4K::bo
const float * bo
Definition: ckernel_orchestration.h:347

CKLayerForwardParamsQ4K::num_kv_heads
int num_kv_heads
Definition: ckernel_orchestration.h:323

CKLayerForwardParamsQ4K::w2
const void * w2
Definition: ckernel_orchestration.h:351

CKLayerForwardParamsQ4K::wo_dtype
CKDataType wo_dtype
Definition: ckernel_orchestration.h:374

CKLayerForwardParamsQ4K::w1
const void * w1
Definition: ckernel_orchestration.h:349

CKLayerForwardParamsQ4K::aligned_context_window
int aligned_context_window
Definition: ckernel_orchestration.h:326

CKLayerForwardParamsQ4K::w1_dtype
CKDataType w1_dtype
Definition: ckernel_orchestration.h:375

CKLayerForwardParamsQ4K::proj_scratch
float * proj_scratch
Definition: ckernel_orchestration.h:362

CKLayerForwardParamsQ4K::wk
const void * wk
Definition: ckernel_orchestration.h:341

CKLayerForwardParamsQ4K::input
const float * input
Definition: ckernel_orchestration.h:332

CKLayerForwardParamsQ4K::wq_dtype
CKDataType wq_dtype
Definition: ckernel_orchestration.h:371

CKLayerForwardParamsQ4K::embed_dim
int embed_dim
Definition: ckernel_orchestration.h:320

CKLayerForwardParamsQ4K::aligned_head_dim
int aligned_head_dim
Definition: ckernel_orchestration.h:325

CKLayerForwardParamsQ4K::ln2_out
float * ln2_out
Definition: ckernel_orchestration.h:364

CKLayerForwardParamsQ4K::intermediate_dim
int intermediate_dim
Definition: ckernel_orchestration.h:327

CKLayerForwardParamsQ4K::ln1_gamma
const float * ln1_gamma
Definition: ckernel_orchestration.h:333

CKLayerForwardParams
Definition: ckernel_orchestration.h:45

CKLayerForwardParams::w2
const float * w2
Definition: ckernel_orchestration.h:78

CKLayerForwardParams::embed_dim
int embed_dim
Definition: ckernel_orchestration.h:47

CKLayerForwardParams::bq
const float * bq
Definition: ckernel_orchestration.h:67

CKLayerForwardParams::ln2_out
float * ln2_out
Definition: ckernel_orchestration.h:91

CKLayerForwardParams::wk
const float * wk
Definition: ckernel_orchestration.h:68

CKLayerForwardParams::num_kv_heads
int num_kv_heads
Definition: ckernel_orchestration.h:50

CKLayerForwardParams::proj_scratch
float * proj_scratch
Definition: ckernel_orchestration.h:89

CKLayerForwardParams::proj_tmp
float * proj_tmp
Definition: ckernel_orchestration.h:88

CKLayerForwardParams::rope_sin
const float * rope_sin
Definition: ckernel_orchestration.h:64

CKLayerForwardParams::rope_cos
const float * rope_cos
Definition: ckernel_orchestration.h:63

CKLayerForwardParams::ln1_rstd
float * ln1_rstd
Definition: ckernel_orchestration.h:82

CKLayerForwardParams::ln1_gamma
const float * ln1_gamma
Definition: ckernel_orchestration.h:60

CKLayerForwardParams::ln2_rstd
float * ln2_rstd
Definition: ckernel_orchestration.h:92

CKLayerForwardParams::aligned_head_dim
int aligned_head_dim
Definition: ckernel_orchestration.h:52

CKLayerForwardParams::ln1_out
float * ln1_out
Definition: ckernel_orchestration.h:81

CKLayerForwardParams::head_dim
int head_dim
Definition: ckernel_orchestration.h:51

CKLayerForwardParams::output
float * output
Definition: ckernel_orchestration.h:96

CKLayerForwardParams::wq
const float * wq
Definition: ckernel_orchestration.h:66

CKLayerForwardParams::eps
float eps
Definition: ckernel_orchestration.h:56

CKLayerForwardParams::swiglu_out
float * swiglu_out
Definition: ckernel_orchestration.h:94

CKLayerForwardParams::q
float * q
Definition: ckernel_orchestration.h:83

CKLayerForwardParams::num_heads
int num_heads
Definition: ckernel_orchestration.h:49

CKLayerForwardParams::w1
const float * w1
Definition: ckernel_orchestration.h:76

CKLayerForwardParams::aligned_context_window
int aligned_context_window
Definition: ckernel_orchestration.h:53

CKLayerForwardParams::fc1_out
float * fc1_out
Definition: ckernel_orchestration.h:93

CKLayerForwardParams::bk
const float * bk
Definition: ckernel_orchestration.h:69

CKLayerForwardParams::wv
const float * wv
Definition: ckernel_orchestration.h:70

CKLayerForwardParams::mlp_out
float * mlp_out
Definition: ckernel_orchestration.h:95

CKLayerForwardParams::b1
const float * b1
Definition: ckernel_orchestration.h:77

CKLayerForwardParams::residual1
float * residual1
Definition: ckernel_orchestration.h:90

CKLayerForwardParams::wo
const float * wo
Definition: ckernel_orchestration.h:73

CKLayerForwardParams::scores
float * scores
Definition: ckernel_orchestration.h:86

CKLayerForwardParams::tokens
int tokens
Definition: ckernel_orchestration.h:46

CKLayerForwardParams::ln2_gamma
const float * ln2_gamma
Definition: ckernel_orchestration.h:61

CKLayerForwardParams::bv
const float * bv
Definition: ckernel_orchestration.h:71

CKLayerForwardParams::intermediate_dim
int intermediate_dim
Definition: ckernel_orchestration.h:54

CKLayerForwardParams::v
float * v
Definition: ckernel_orchestration.h:85

CKLayerForwardParams::k
float * k
Definition: ckernel_orchestration.h:84

CKLayerForwardParams::b2
const float * b2
Definition: ckernel_orchestration.h:79

CKLayerForwardParams::rope_pos_offset
int rope_pos_offset
Definition: ckernel_orchestration.h:57

CKLayerForwardParams::input
const float * input
Definition: ckernel_orchestration.h:59

CKLayerForwardParams::aligned_embed_dim
int aligned_embed_dim
Definition: ckernel_orchestration.h:48

CKLayerForwardParams::aligned_intermediate_dim
int aligned_intermediate_dim
Definition: ckernel_orchestration.h:55

CKLayerForwardParams::bo
const float * bo
Definition: ckernel_orchestration.h:74

CKLayerForwardParams::attn_out
float * attn_out
Definition: ckernel_orchestration.h:87