C-Kernel-Engine/doxygen/v6_85_2test__generated_2qwen2__int8_8c_source.html

 /**

  * @file qwen2_int8.c

  * @brief AUTO-GENERATED: qwen2_0.5b_decode Implementation (IR v6.5 - Explicit Unrolled)

  *

  * Generated: 2026-01-12T11:58:55.212793 UTC

  * Total Memory: 3.57 GB

  * Mode: decode

  * Layers: 24 (fully unrolled)

  *

  * Per-layer quant types:

  *   Layer 0: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  *   Layer 1: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  *   Layer 2: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  *   ... (21 more layers)

  *

  * DO NOT EDIT - Regenerate with build_ir_v6.5.py or codegen_v6.5.py

  */


 #define _GNU_SOURCE  /* For MAP_ANONYMOUS, MAP_HUGETLB */


 #include "ck-kernel-inference.h"


 #include "ckernel_engine.h"


 #include <stdio.h>

 #include <stdlib.h>

 #include <string.h>

 #include <stdint.h>

 #include <math.h>


 #ifdef __linux__

 #include <sys/mman.h>

 #endif


 #if QWEN2_0_5B_DECODE_DTYPE_BYTES != 4

 #error "qwen2_0.5b_decode: v6.5 codegen currently supports fp32 only. Use --dtype=fp32."

 #endif


 /* ============================================================================

  * LOCAL HELPERS (no orchestration dependency)

  * ============================================================================ */


 static void qwen2_0_5b_decode_residual_add_token_major(

     const float *a,

     const float *b,

     float *out,

     int tokens,

     int aligned_embed_dim

 ) {

     if (!a || !b || !out) {

         return;

     }

     for (int t = 0; t < tokens; ++t) {

         const float *pa = a + (size_t)t * (size_t)aligned_embed_dim;

         const float *pb = b + (size_t)t * (size_t)aligned_embed_dim;

         float *pc = out + (size_t)t * (size_t)aligned_embed_dim;

         for (int d = 0; d < aligned_embed_dim; ++d) {

             pc[d] = pa[d] + pb[d];

         }

     }

 }


 /* ============================================================================

  * MAGIC HEADER

  * ============================================================================ */


 typedef struct __attribute__((packed)) {

     uint32_t magic;           /* 0x434B454E */

     uint32_t version;          /* IR version */

     uint64_t total_bytes;

     uint64_t weight_bytes;

     uint64_t activation_bytes;

     uint32_t num_layers;

     uint32_t embed_dim;

     uint32_t num_heads;

     uint32_t vocab_size;

     uint32_t max_seq_len;

     uint32_t canary_count;

     uint8_t  reserved[8];       /* Pad to 64 bytes */

 } MagicHeader;


 _Static_assert(sizeof(MagicHeader) == 64, "MagicHeader must be 64 bytes");


 /* ============================================================================

  * ALLOCATION

  * ============================================================================ */


 int qwen2_0_5b_decode_model_allocate(QWEN2_0_5B_DECODEModel *model) {

     size_t total = QWEN2_0_5B_DECODE_TOTAL_BYTES;


 #ifdef __linux__

     model->base = mmap(NULL, total,

                        PROT_READ | PROT_WRITE,

                        MAP_PRIVATE | MAP_ANONYMOUS | MAP_HUGETLB,

                        -1, 0);

     if (model->base == MAP_FAILED) {

         model->base = mmap(NULL, total,

                            PROT_READ | PROT_WRITE,

                            MAP_PRIVATE | MAP_ANONYMOUS,

                            -1, 0);

     }

     if (model->base == MAP_FAILED) {

         perror("mmap failed");

         return -1;

     }

 #else

     model->base = aligned_alloc(64, total);

     if (!model->base) {

         perror("aligned_alloc failed");

         return -1;

     }

 #endif


     model->total_bytes = total;


     /* Initialize magic header */

     MagicHeader *header = (MagicHeader *)model->base;

     header->magic = QWEN2_0_5B_DECODE_MAGIC;

     header->version = 5;

     header->total_bytes = QWEN2_0_5B_DECODE_TOTAL_BYTES;

     header->weight_bytes = QWEN2_0_5B_DECODE_WEIGHT_BYTES;

     header->activation_bytes = QWEN2_0_5B_DECODE_ACTIVATION_BYTES;

     header->num_layers = QWEN2_0_5B_DECODE_NUM_LAYERS;

     header->embed_dim = QWEN2_0_5B_DECODE_EMBED_DIM;

     header->num_heads = QWEN2_0_5B_DECODE_NUM_HEADS;

     header->vocab_size = QWEN2_0_5B_DECODE_VOCAB_SIZE;

     header->max_seq_len = QWEN2_0_5B_DECODE_MAX_SEQ_LEN;

     header->canary_count = QWEN2_0_5B_DECODE_CANARY_COUNT;


     /* Initialize canary guards */

     for (int i = 0; i < QWEN2_0_5B_DECODE_CANARY_COUNT; i++) {

         uint32_t *ptr = (uint32_t*)((char*)model->base + QWEN2_0_5B_DECODE_CANARIES[i].offset);

         for (int j = 0; j < (QWEN2_0_5B_DECODE_CANARY_SIZE / 4); j++) {

             ptr[j] = QWEN2_0_5B_DECODE_CANARY_VALUE;

         }

     }


     return 0;

 }


 void qwen2_0_5b_decode_model_free(QWEN2_0_5B_DECODEModel *model) {

     if (!model || !model->base) return;

 #ifdef __linux__

     munmap(model->base, model->total_bytes);

 #else

     free(model->base);

 #endif

     model->base = NULL;

     model->total_bytes = 0;

 }


 int qwen2_0_5b_decode_verify_canaries(QWEN2_0_5B_DECODEModel *model) {

     int errors = 0;

     uint32_t *ptr;


     for (int i = 0; i < QWEN2_0_5B_DECODE_CANARY_COUNT; i++) {

         ptr = (uint32_t*)((char*)model->base + QWEN2_0_5B_DECODE_CANARIES[i].offset);

         for (int j = 0; j < 4; j++) {

             if (ptr[j] != QWEN2_0_5B_DECODE_CANARY_VALUE) {

                 fprintf(stderr, "CANARY CORRUPTION: %s at offset 0x%lX\n",

                         QWEN2_0_5B_DECODE_CANARIES[i].name,

                         QWEN2_0_5B_DECODE_CANARIES[i].offset);

                 errors++;

                 break;

             }

         }

     }


     return errors;

 }


 /* ============================================================================

  * ALIGNMENT HELPERS

  * ============================================================================ */


 static int qwen2_0_5b_decode_align_elems(int elems, int elem_bytes, int align_bytes) {

     int bytes = elems * elem_bytes;

     int aligned = (bytes + align_bytes - 1) / align_bytes * align_bytes;

     return aligned / elem_bytes;

 }


 /* ============================================================================

  * ROPE PRECOMPUTE

  * ============================================================================ */


 void qwen2_0_5b_decode_precompute_rope(QWEN2_0_5B_DECODEModel *model) {

     const int T = QWEN2_0_5B_DECODE_MAX_SEQ_LEN;

     const int D = QWEN2_0_5B_DECODE_HEAD_DIM / 2;

     const float theta = 1000000.0f;


     float *cos_ptr = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *sin_ptr = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     for (int pos = 0; pos < T; pos++) {

         for (int i = 0; i < D; i++) {

             float freq = 1.0f / powf(theta, (float)(2 * i) / (float)(D * 2));

             float angle = (float)pos * freq;

             cos_ptr[pos * D + i] = cosf(angle);

             sin_ptr[pos * D + i] = sinf(angle);

         }

     }

 }


 /* ============================================================================

  * EXPLICIT PER-LAYER PREFILL FUNCTIONS (v6.5 unrolled)

  * ============================================================================ */


 /*

  * Layer 0: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_0_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[0];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_HEADER.embedded_input);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 1: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_1_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[1];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[0].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 2: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_2_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[2];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[1].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 3: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_3_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[3];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[2].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 4: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_4_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[4];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[3].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 5: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_5_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[5];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[4].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 6: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_6_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[6];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[5].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 7: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_7_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[7];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[6].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 8: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_8_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[8];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[7].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 9: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_9_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[9];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[8].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 10: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_10_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[10];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[9].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 11: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_11_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[11];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[10].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 12: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_12_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[12];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[11].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 13: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_13_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[13];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[12].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 14: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_14_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[14];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[13].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 15: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_15_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[15];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[14].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 16: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_16_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[16];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[15].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 17: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_17_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[17];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[16].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 18: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_18_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[18];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[17].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 19: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_19_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[19];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[18].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 20: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_20_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[20];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[19].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 21: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_21_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[21];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[20].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 22: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_22_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[22];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[21].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /*

  * Layer 23: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_23_prefill(

     QWEN2_0_5B_DECODEModel *model,

     int num_tokens,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[23];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[22].output);

     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *q = QWEN2_0_5B_DECODE_PTR(model, L->q);

     float *k = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *attn_out = QWEN2_0_5B_DECODE_PTR(model, L->attn_out);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *fc1_out = QWEN2_0_5B_DECODE_PTR(model, L->fc1_out);

     float *swiglu_out = QWEN2_0_5B_DECODE_PTR(model, L->swiglu_out);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);

     const float *BQ = NULL;

     const float *BK = NULL;

     const float *BV = NULL;

     const float *BO = NULL;

     const float *B1 = NULL;

     const float *B2 = NULL;


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;

     const size_t head_w_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t q_head_stride = (size_t)num_tokens * (size_t)aligned_head_dim;

     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Q projection (head-major) */

     const size_t wq_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WQ_bytes = (const uint8_t *)WQ;

     for (int h = 0; h < H; ++h) {

         const void *wq_h = (const void *)(WQ_bytes + (size_t)h * wq_head_bytes);

         const float *bq_h = BQ ? (BQ + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *q_h = q + (size_t)h * q_head_stride;

         gemm_nt_q4_k(ln1_out, wq_h, bq_h, q_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* K projection (head-major) */

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         const float *bk_h = BK ? (BK + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *k_h = k + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wk_h, bk_h, k_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* V projection (head-major) */

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, head_w_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         const float *bv_h = BV ? (BV + (size_t)h * (size_t)aligned_head_dim) : NULL;

         float *v_h = v + (size_t)h * kv_head_stride;

         gemm_nt_q4_k(ln1_out, wv_h, bv_h, v_h, num_tokens, aligned_head_dim, aligned_embed_dim);

     }


     /* RoPE */

     rope_forward_qk_strided(q,

                             k,

                             rope_cos,

                             rope_sin,

                             H,

                             H_kv,

                             num_tokens,

                             head_dim,

                             aligned_head_dim,

                             0,

                             num_tokens,

                             aligned_context_window);


     /* Attention (prefill, causal) */

     attention_forward_causal_head_major_gqa_flash_strided(q,

                                                            k,

                                                            v,

                                                            attn_out,

                                                            H,

                                                            H_kv,

                                                            num_tokens,

                                                            head_dim,

                                                            aligned_head_dim,

                                                            aligned_context_window);


     /* Output projection (flatten head-major to token-major) */

     const int K = H * aligned_head_dim;

     if (K != aligned_embed_dim) {

         return;

     }

     const float *proj_in = attn_out;

     if (H > 1) {

         if (!proj_scratch) {

             return;

         }

         for (int t = 0; t < num_tokens; ++t) {

             float *dst = proj_scratch + (size_t)t * (size_t)aligned_embed_dim;

             for (int h = 0; h < H; ++h) {

                 const float *src = attn_out + (size_t)h * q_head_stride + (size_t)t * (size_t)aligned_head_dim;

                 memcpy(dst + (size_t)h * (size_t)aligned_head_dim,

                        src,

                        (size_t)aligned_head_dim * sizeof(float));

             }

         }

         proj_in = proj_scratch;

     }

     gemm_nt_q4_k(proj_in, WO, BO, proj_tmp, num_tokens, aligned_embed_dim, K);


     /* Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, num_tokens, aligned_embed_dim);


     /* RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     num_tokens,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* MLP (SwiGLU) */

     gemm_nt_q4_k(ln2_out, W1, B1, fc1_out, num_tokens, 2 * aligned_intermediate_dim, aligned_embed_dim);

     swiglu_forward(fc1_out, swiglu_out, num_tokens, aligned_intermediate_dim);

     gemm_nt_q4_k(swiglu_out, W2, B2, mlp_out, num_tokens, aligned_embed_dim, aligned_intermediate_dim);


     /* Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, num_tokens, aligned_embed_dim);

 }


 /* ============================================================================

  * FORWARD PASS (PREFILL)

  * ============================================================================ */


 static void qwen2_0_5b_decode_forward_prefill_impl(

     QWEN2_0_5B_DECODEModel *model,

     const int *tokens,

     int num_tokens

 ) {

     if (!model || !tokens || num_tokens <= 0) {

         return;

     }


     const int elem_bytes = QWEN2_0_5B_DECODE_DTYPE_BYTES;

     const int aligned_embed_dim = 1024;

     const int aligned_head_dim = 64;

     const int aligned_intermediate_dim = 4864;

     const int aligned_context_window = 131072;


     float *embed_out = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_HEADER.embedded_input);

     const void *embed_weight = (const void *)QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_HEADER.token_emb);

     embedding_forward_q4_k((const int32_t *)tokens,

                           num_tokens,

                           QWEN2_0_5B_DECODE_VOCAB_SIZE,

                           embed_weight,

                           NULL,

                           embed_out,

                           QWEN2_0_5B_DECODE_EMBED_DIM,

                           aligned_embed_dim,

                           num_tokens,

                           0);


     qwen2_0_5b_decode_layer_0_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_1_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_2_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_3_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_4_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_5_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_6_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_7_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_8_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_9_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_10_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_11_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_12_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_13_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_14_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_15_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_16_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_17_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_18_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_19_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_20_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_21_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_22_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     qwen2_0_5b_decode_layer_23_prefill(

         model,

         num_tokens,

         aligned_embed_dim,

         aligned_head_dim,

         aligned_intermediate_dim,

         aligned_context_window);


     float *last_hidden = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[QWEN2_0_5B_DECODE_NUM_LAYERS - 1].output);

     float *final_ln_weight = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.final_ln_weight);

     float *final_out = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.final_output);

     rmsnorm_forward(last_hidden,

                    final_ln_weight,

                    final_out,

                    NULL,

                    num_tokens,

                    QWEN2_0_5B_DECODE_EMBED_DIM,

                    aligned_embed_dim,

                    1e-06f);


     float *logits = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.logits);

     const void *lm_head = (const void *)QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.lm_head_weight);

     const size_t q8_bytes = ck_dtype_row_bytes(CK_DT_Q8_K, (size_t)aligned_embed_dim);

     for (int t = 0; t < num_tokens; ++t) {

         uint8_t q8_buf[q8_bytes];

         const float *row = final_out + (size_t)t * (size_t)aligned_embed_dim;

         float *logits_row = logits + (size_t)t * (size_t)QWEN2_0_5B_DECODE_VOCAB_SIZE;

         quantize_row_q8_k(row, q8_buf, aligned_embed_dim);

         gemm_nt_q4_k_q8_k(q8_buf,

                           lm_head,

                           NULL,

                           logits_row,

                           1,

                           QWEN2_0_5B_DECODE_VOCAB_SIZE,

                           aligned_embed_dim);

     }

 }


 /* ============================================================================

  * EXPLICIT PER-LAYER DECODE FUNCTIONS (v6.5 unrolled)

  * ============================================================================ */


 /*

  * Layer 0: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_0_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[0];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_HEADER.embedded_input);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 0) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 1: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_1_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[1];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[0].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 1) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 2: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_2_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[2];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[1].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 2) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 3: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_3_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[3];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[2].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 3) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 4: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_4_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[4];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[3].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 4) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 5: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_5_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[5];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[4].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 5) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 6: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_6_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[6];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[5].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 6) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 7: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_7_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[7];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[6].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 7) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 8: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_8_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[8];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[7].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 8) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 9: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_9_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[9];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[8].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 9) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 10: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_10_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[10];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[9].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 10) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 11: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_11_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[11];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[10].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 11) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 12: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_12_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[12];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[11].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 12) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 13: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_13_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[13];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[12].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 13) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 14: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_14_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[14];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[13].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 14) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 15: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_15_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[15];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[14].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 15) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 16: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_16_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[16];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[15].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 16) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 17: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_17_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[17];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[16].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 17) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 18: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_18_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[18];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[17].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 18) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 19: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_19_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[19];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[18].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 19) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 20: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_20_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[20];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[19].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 20) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 21: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_21_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[21];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[20].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 21) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 22: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_22_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[22];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[21].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 22) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /*

  * Layer 23: wq=q4_k wk=q4_k wv=q4_k wo=q4_k w1=q4_k w2=q4_k

  */

 static void qwen2_0_5b_decode_layer_23_decode(

     QWEN2_0_5B_DECODEModel *model,

     int token_index,

     int aligned_embed_dim,

     int aligned_head_dim,

     int aligned_intermediate_dim,

     int aligned_context_window

 ) {

     const QWEN2_0_5B_DECODELayerOffsets *L = &QWEN2_0_5B_DECODE_LAYERS[23];


     float *input = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[22].output);


     float *ln1_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln1_gamma);

     float *ln1_out = QWEN2_0_5B_DECODE_PTR(model, L->ln1_out);

     float *ln2_gamma = QWEN2_0_5B_DECODE_PTR(model, L->ln2_gamma);

     float *ln2_out = QWEN2_0_5B_DECODE_PTR(model, L->ln2_out);

     float *k_cache = QWEN2_0_5B_DECODE_PTR(model, L->k);

     float *v_cache = QWEN2_0_5B_DECODE_PTR(model, L->v);

     float *proj_tmp = QWEN2_0_5B_DECODE_PTR(model, L->proj_tmp);

     float *proj_scratch = QWEN2_0_5B_DECODE_PTR(model, L->proj_scratch);

     float *residual1 = QWEN2_0_5B_DECODE_PTR(model, L->residual1);

     float *mlp_out = QWEN2_0_5B_DECODE_PTR(model, L->mlp_out);

     float *output = QWEN2_0_5B_DECODE_PTR(model, L->output);


     /* Weights (explicit types for layer 23) */

     const void *WQ = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wq);  /* Q4_K */

     const void *WK = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wk);  /* Q4_K */

     const void *WV = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wv);  /* Q4_K */

     const void *WO = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->wo);  /* Q4_K */

     const void *W1 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w1);  /* Q4_K (gate+up) */

     const void *W2 = (const void *)QWEN2_0_5B_DECODE_PTR(model, L->w2);  /* Q4_K (down) */


     float *rope_cos = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_cos_cache);

     float *rope_sin = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_GLOBALS.rope_sin_cache);


     const int H = QWEN2_0_5B_DECODE_NUM_HEADS;

     const int H_kv = QWEN2_0_5B_DECODE_NUM_KV_HEADS;

     const int head_dim = QWEN2_0_5B_DECODE_HEAD_DIM;


     float q_token[H * aligned_head_dim];

     float k_token[H_kv * aligned_head_dim];

     float v_token[H_kv * aligned_head_dim];

     float attn_token[H * aligned_head_dim];


     /* Local MLP buffers (avoid layout dependencies for intermediate values) */

     float fc1_out[2 * aligned_intermediate_dim];

     float swiglu_out[aligned_intermediate_dim];


     /* Step 1: RMSNorm before attention */

     rmsnorm_forward(input,

                     ln1_gamma,

                     ln1_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     const size_t kv_head_stride = (size_t)aligned_context_window * (size_t)aligned_head_dim;


     /* Step 2: QKV projection */

     /* Q projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln1_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln1_q8[ln1_q8_bytes];

     quantize_row_q8_k(ln1_out, ln1_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(q_token, WQ, ln1_q8, H * head_dim, aligned_embed_dim);

     if (aligned_head_dim > head_dim) {

         for (int h = 0; h < H; ++h) {

             float *q_head = q_token + (size_t)h * (size_t)aligned_head_dim;

             for (int d = head_dim; d < aligned_head_dim; ++d) {

                 q_head[d] = 0.0f;

             }

         }

     }


     /* K projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wk_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wk_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wk_head_elems);

     const uint8_t *WK_bytes = (const uint8_t *)WK;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wk_h = (const void *)(WK_bytes + (size_t)h * wk_head_bytes);

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(k_head, wk_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             k_head[d] = 0.0f;

         }

     }


     /* V projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k (direct-to-cache) */

     const size_t wv_head_elems = (size_t)aligned_head_dim * (size_t)aligned_embed_dim;

     const size_t wv_head_bytes = ck_dtype_row_bytes(CK_DT_Q4_K, wv_head_elems);

     const uint8_t *WV_bytes = (const uint8_t *)WV;

     /* ln1_q8 already quantized above */

     for (int h = 0; h < H_kv; ++h) {

         const void *wv_h = (const void *)(WV_bytes + (size_t)h * wv_head_bytes);

         float *v_head = v_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         gemv_q4_k_q8_k(v_head, wv_h, ln1_q8, head_dim, aligned_embed_dim);

         for (int d = head_dim; d < aligned_head_dim; ++d) {

             v_head[d] = 0.0f;

         }

     }


     /* Step 3: RoPE */

     rope_forward(q_token,

                  rope_cos,

                  rope_sin,

                  H,

                  1,

                  head_dim,

                  aligned_head_dim,

                  token_index);

     for (int h = 0; h < H_kv; ++h) {

         float *k_head = k_cache + (size_t)h * kv_head_stride + (size_t)token_index * (size_t)aligned_head_dim;

         rope_forward(k_head,

                      rope_cos,

                      rope_sin,

                      1,

                      1,

                      head_dim,

                      aligned_head_dim,

                      token_index);

     }


     /* Step 4: KV cache write (direct-to-cache) */


     /* Step 5: Attention (decode, flash) */

     attention_forward_decode_head_major_gqa_flash(q_token,

                                                    k_cache,

                                                    v_cache,

                                                    attn_token,

                                                    H,

                                                    H_kv,

                                                    token_index + 1,

                                                    aligned_context_window,

                                                    head_dim,

                                                    aligned_head_dim);


     /* Step 6: Output projection */

     /* WO projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t attn_q8_bytes = ((((H * head_dim) + 255) / 256) * 292);

     uint8_t attn_q8[attn_q8_bytes];

     quantize_row_q8_k(attn_token, attn_q8, H * head_dim);

     gemv_q4_k_q8_k(proj_tmp, WO, attn_q8, aligned_embed_dim, H * head_dim);


     /* Step 7: Residual add */

     qwen2_0_5b_decode_residual_add_token_major(input, proj_tmp, residual1, 1, aligned_embed_dim);


     /* Step 8: RMSNorm before MLP */

     rmsnorm_forward(residual1,

                     ln2_gamma,

                     ln2_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* Step 9: MLP (SwiGLU) */

     /* Gate+Up projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t ln2_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t ln2_q8[ln2_q8_bytes];

     quantize_row_q8_k(ln2_out, ln2_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(fc1_out, W1, ln2_q8, 2 * aligned_intermediate_dim, aligned_embed_dim);


     /* SwiGLU activation */

     swiglu_forward(fc1_out, swiglu_out, 1, aligned_intermediate_dim);


     /* Down projection (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t swiglu_q8_bytes = ((((aligned_intermediate_dim) + 255) / 256) * 292);

     uint8_t swiglu_q8[swiglu_q8_bytes];

     quantize_row_q8_k(swiglu_out, swiglu_q8, aligned_intermediate_dim);

     gemv_q4_k_q8_k(mlp_out, W2, swiglu_q8, aligned_embed_dim, aligned_intermediate_dim);


     /* Step 10: Final residual add */

     qwen2_0_5b_decode_residual_add_token_major(residual1, mlp_out, output, 1, aligned_embed_dim);

 }


 /* ============================================================================

  * DECODE TOKEN (calls each layer explicitly)

  * ============================================================================ */


 static void qwen2_0_5b_decode_decode_token(

     QWEN2_0_5B_DECODEModel *model,

     const int *token,

     int token_index

 ) {

     if (!model || !token) return;


     const int aligned_embed_dim = 1024;

     const int aligned_head_dim = 64;

     const int aligned_intermediate_dim = 4864;

     const int aligned_context_window = 131072;


     if (token_index < 0 || token_index >= aligned_context_window) return;


     /* Embedding lookup */

     float *embed_out = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_HEADER.embedded_input);

     const void *embed_weight = (const void *)QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_HEADER.token_emb);

     /* Embedding: Q4_K -> embedding_forward_q4_k */

     embedding_forward_q4_k((const int32_t *)token,

                           1,

                           QWEN2_0_5B_DECODE_VOCAB_SIZE,

                           embed_weight,

                           NULL,

                           embed_out,

                           QWEN2_0_5B_DECODE_EMBED_DIM,

                           aligned_embed_dim,

                           1,

                           0);


     /* Process each layer explicitly */

     qwen2_0_5b_decode_layer_0_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_1_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_2_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_3_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_4_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_5_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_6_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_7_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_8_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_9_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_10_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_11_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_12_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_13_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_14_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_15_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_16_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_17_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_18_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_19_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_20_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_21_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_22_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);

     qwen2_0_5b_decode_layer_23_decode(model, token_index, aligned_embed_dim, aligned_head_dim, aligned_intermediate_dim, aligned_context_window);


     /* Final RMSNorm */

     float *last_hidden = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_LAYERS[23].output);

     float *final_ln_weight = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.final_ln_weight);

     float *final_out = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.final_output);

     rmsnorm_forward(last_hidden,

                     final_ln_weight,

                     final_out,

                     NULL,

                     1,

                     QWEN2_0_5B_DECODE_EMBED_DIM,

                     aligned_embed_dim,

                     1e-06f);


     /* LM head projection */

     float *logits = QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.logits);

     const void *lm_head = (const void *)QWEN2_0_5B_DECODE_PTR(model, QWEN2_0_5B_DECODE_FOOTER.lm_head_weight);

     /* LM head (INT8): Q4_K x Q8_K -> gemv_q4_k_q8_k */

     const size_t final_q8_bytes = ((((aligned_embed_dim) + 255) / 256) * 292);

     uint8_t final_q8[final_q8_bytes];

     quantize_row_q8_k(final_out, final_q8, aligned_embed_dim);

     gemv_q4_k_q8_k(logits, lm_head, final_q8, QWEN2_0_5B_DECODE_VOCAB_SIZE, aligned_embed_dim);

 }


 /* ============================================================================

  * PUBLIC API

  * ============================================================================ */


 void qwen2_0_5b_decode_forward(

     QWEN2_0_5B_DECODEModel *model,

     const int *tokens,

     int num_tokens

 ) {

     if (!model || !tokens || num_tokens <= 0) return;

     qwen2_0_5b_decode_forward_prefill_impl(model, tokens, num_tokens);

 }


 void qwen2_0_5b_decode_decode(QWEN2_0_5B_DECODEModel *model, const int *token, int token_index) {

     qwen2_0_5b_decode_decode_token(model, token, token_index);

 }


 /* ============================================================================

  * GENERIC MODEL API - Model-agnostic interface

  * These functions have the SAME names for all models.

  * CLI code uses these, so it works with any model.

  * ============================================================================ */


 #include "ck_model_api.h"


 static CKModelConfig g_model_config = {

     .embed_dim = QWEN2_0_5B_DECODE_EMBED_DIM,

     .num_heads = QWEN2_0_5B_DECODE_NUM_HEADS,

     .num_kv_heads = QWEN2_0_5B_DECODE_NUM_KV_HEADS,

     .head_dim = QWEN2_0_5B_DECODE_HEAD_DIM,

     .intermediate_size = QWEN2_0_5B_DECODE_INTERMEDIATE,

     .num_layers = QWEN2_0_5B_DECODE_NUM_LAYERS,

     .vocab_size = QWEN2_0_5B_DECODE_VOCAB_SIZE,

     .max_seq_len = QWEN2_0_5B_DECODE_MAX_SEQ_LEN,

     .total_bytes = QWEN2_0_5B_DECODE_TOTAL_BYTES,

     .weight_bytes = QWEN2_0_5B_DECODE_WEIGHT_BYTES,

     .activation_bytes = QWEN2_0_5B_DECODE_ACTIVATION_BYTES,

     .model_name = "qwen2_0.5b_decode",

     .model_family = "qwen2",

 };


 const CKModelConfig *ck_model_get_config(void) {

     return &g_model_config;

 }


 void *ck_model_create(void) {

     QWEN2_0_5B_DECODEModel *model = malloc(sizeof(QWEN2_0_5B_DECODEModel));

     if (!model) return NULL;

     if (qwen2_0_5b_decode_model_allocate(model) != 0) {

         free(model);

         return NULL;

     }

     return model;

 }


 void ck_model_free(void *model) {

     if (!model) return;

     qwen2_0_5b_decode_model_free((QWEN2_0_5B_DECODEModel *)model);

     free(model);

 }


 void ck_model_precompute_rope(void *model) {

     qwen2_0_5b_decode_precompute_rope((QWEN2_0_5B_DECODEModel *)model);

 }


 void ck_model_forward(void *model, const int *tokens, int num_tokens) {

     qwen2_0_5b_decode_forward((QWEN2_0_5B_DECODEModel *)model, tokens, num_tokens);

 }


 void ck_model_decode(void *model, const int *token, int token_index) {

     qwen2_0_5b_decode_decode((QWEN2_0_5B_DECODEModel *)model, token, token_index);

 }


 float *ck_model_get_logits(void *model) {

     QWEN2_0_5B_DECODEModel *m = (QWEN2_0_5B_DECODEModel *)model;

     return QWEN2_0_5B_DECODE_PTR(m, QWEN2_0_5B_DECODE_FOOTER.logits);

 }


 int ck_model_verify_canaries(void *model) {

     return qwen2_0_5b_decode_verify_canaries((QWEN2_0_5B_DECODEModel *)model);

 }


 void *ck_model_get_base(void *model) {

     return ((QWEN2_0_5B_DECODEModel *)model)->base;

 }


 size_t ck_model_get_total_bytes(void *model) {

     return ((QWEN2_0_5B_DECODEModel *)model)->total_bytes;

 }

ck_model_api.h
Generic Model API - Model-agnostic interface for CK-Engine.

CK_DT_Q4_K
@ CK_DT_Q4_K
Definition: ckernel_dtype.h:40

CK_DT_Q8_K
@ CK_DT_Q8_K
Definition: ckernel_dtype.h:43

ck_dtype_row_bytes
static size_t ck_dtype_row_bytes(CKDataType dt, size_t n_elements)
Calculate total bytes for n_elements of given dtype.
Definition: ckernel_dtype.h:138

ckernel_engine.h

attention_forward_causal_head_major_gqa_flash_strided
void attention_forward_causal_head_major_gqa_flash_strided(const float *q, const float *k, const float *v, float *output, int num_heads, int num_kv_heads, int num_tokens, int head_dim, int aligned_head_dim, int kv_stride_tokens)
Definition: attention_kernels.c:859

rope_forward_qk_strided
void rope_forward_qk_strided(float *q, float *k, const float *cos_cache, const float *sin_cache, int num_heads, int num_kv_heads, int num_tokens, int head_dim, int aligned_head_dim, int pos_offset, int q_stride_tokens, int k_stride_tokens)
Definition: rope_kernels.c:472

swiglu_forward
void swiglu_forward(const float *input, float *output, int tokens, int dim)
Definition: swiglu_kernels.c:131

gemm_nt_q4_k
void gemm_nt_q4_k(const float *A, const void *B, const float *bias, float *C, int M, int N, int K)
Definition: gemm_kernels_q4k.c:683

rope_forward
void rope_forward(float *x, const float *cos_cache, const float *sin_cache, int num_heads, int num_tokens, int head_dim, int aligned_head_dim, int pos_offset)
Definition: rope_kernels.c:180

embedding_forward_q4_k
void embedding_forward_q4_k(const int32_t *token_ids, int token_count, int vocab_size, const void *token_embeddings, const float *pos_embeddings, float *output, int embed_dim, int aligned_embed_dim, int context_window, int add_pos)
Definition: embedding_kernels.c:76

gemm_nt_q4_k_q8_k
void gemm_nt_q4_k_q8_k(const void *A_q8, const void *B, const float *bias, float *C, int M, int N, int K)
Definition: gemm_kernels_q4k_q8k.c:295

attention_forward_decode_head_major_gqa_flash
void attention_forward_decode_head_major_gqa_flash(const float *q_token, const float *k_cache, const float *v_cache, float *out_token, int num_heads, int num_kv_heads, int kv_tokens, int cache_capacity, int head_dim, int aligned_head_dim)
Definition: attention_kernels.c:1467

quantize_row_q8_k
void quantize_row_q8_k(const float *x, void *y, int k)
Definition: gemm_kernels_q4k_q8k.c:107

rmsnorm_forward
void rmsnorm_forward(const float *input, const float *gamma, float *output, float *rstd_cache, int tokens, int d_model, int aligned_embed_dim, float eps)
Definition: rmsnorm_kernels.c:50

gemv_q4_k_q8_k
void gemv_q4_k_q8_k(float *y, const void *W, const void *x_q8, int M, int K)
Definition: gemm_kernels_q4k_q8k.c:239

CKModelConfig
Definition: ck_model_api.h:32

CKModelConfig::embed_dim
int embed_dim
Definition: ck_model_api.h:33

QWEN2_0_5B_DECODECanary::offset
size_t offset
Definition: v6.5/test_generated/ck-kernel-inference.h:687

QWEN2_0_5B_DECODEFooterOffsets::logits
size_t logits
Definition: v6.5/test_generated/ck-kernel-inference.h:658

QWEN2_0_5B_DECODEFooterOffsets::final_output
size_t final_output
Definition: v6.5/test_generated/ck-kernel-inference.h:656

QWEN2_0_5B_DECODEFooterOffsets::lm_head_weight
size_t lm_head_weight
Definition: v6.5/test_generated/ck-kernel-inference.h:657

QWEN2_0_5B_DECODEFooterOffsets::final_ln_weight
size_t final_ln_weight
Definition: v6.5/test_generated/ck-kernel-inference.h:655

QWEN2_0_5B_DECODEGlobalOffsets::rope_cos_cache
size_t rope_cos_cache
Definition: v6.5/test_generated/ck-kernel-inference.h:673

QWEN2_0_5B_DECODEGlobalOffsets::rope_sin_cache
size_t rope_sin_cache
Definition: v6.5/test_generated/ck-kernel-inference.h:674

QWEN2_0_5B_DECODEHeaderOffsets::token_emb
size_t token_emb
Definition: v6.5/test_generated/ck-kernel-inference.h:50

QWEN2_0_5B_DECODEHeaderOffsets::embedded_input
size_t embedded_input
Definition: v6.5/test_generated/ck-kernel-inference.h:54

QWEN2_0_5B_DECODELayerOffsets
Definition: v6.5/test_generated/ck-kernel-inference.h:69

QWEN2_0_5B_DECODELayerOffsets::q
size_t q
Definition: v6.5/test_generated/ck-kernel-inference.h:78

QWEN2_0_5B_DECODELayerOffsets::ln2_gamma
size_t ln2_gamma
Definition: v6.5/test_generated/ck-kernel-inference.h:85

QWEN2_0_5B_DECODELayerOffsets::w1
size_t w1
Definition: v6.5/test_generated/ck-kernel-inference.h:87

QWEN2_0_5B_DECODELayerOffsets::proj_tmp
size_t proj_tmp
Definition: v6.5/test_generated/ck-kernel-inference.h:82

QWEN2_0_5B_DECODELayerOffsets::ln1_out
size_t ln1_out
Definition: v6.5/test_generated/ck-kernel-inference.h:71

QWEN2_0_5B_DECODELayerOffsets::mlp_out
size_t mlp_out
Definition: v6.5/test_generated/ck-kernel-inference.h:89

QWEN2_0_5B_DECODELayerOffsets::k
size_t k
Definition: v6.5/test_generated/ck-kernel-inference.h:79

QWEN2_0_5B_DECODELayerOffsets::wv
size_t wv
Definition: v6.5/test_generated/ck-kernel-inference.h:76

QWEN2_0_5B_DECODELayerOffsets::ln2_out
size_t ln2_out
Definition: v6.5/test_generated/ck-kernel-inference.h:86

QWEN2_0_5B_DECODELayerOffsets::ln1_gamma
size_t ln1_gamma
Definition: v6.5/test_generated/ck-kernel-inference.h:70

QWEN2_0_5B_DECODELayerOffsets::residual1
size_t residual1
Definition: v6.5/test_generated/ck-kernel-inference.h:84

QWEN2_0_5B_DECODELayerOffsets::v
size_t v
Definition: v6.5/test_generated/ck-kernel-inference.h:80

QWEN2_0_5B_DECODELayerOffsets::wk
size_t wk
Definition: v6.5/test_generated/ck-kernel-inference.h:74

QWEN2_0_5B_DECODELayerOffsets::wq
size_t wq
Definition: v6.5/test_generated/ck-kernel-inference.h:72

QWEN2_0_5B_DECODELayerOffsets::wo
size_t wo
Definition: v6.5/test_generated/ck-kernel-inference.h:81

QWEN2_0_5B_DECODELayerOffsets::output
size_t output
Definition: v6.5/test_generated/ck-kernel-inference.h:90

QWEN2_0_5B_DECODELayerOffsets::proj_scratch
size_t proj_scratch
Definition: v6.5/test_generated/ck-kernel-inference.h:83

QWEN2_0_5B_DECODELayerOffsets::w2
size_t w2
Definition: v6.5/test_generated/ck-kernel-inference.h:88

QWEN2_0_5B_DECODEModel
Definition: v6.5/test_generated/ck-kernel-inference.h:1265

QWEN2_0_5B_DECODEModel::base
void * base
Definition: v6.5/test_generated/ck-kernel-inference.h:1266

QWEN2_0_5B_DECODEModel::total_bytes
size_t total_bytes
Definition: v6.5/test_generated/ck-kernel-inference.h:1267

token
const char * token
Definition: tokenizer.h:306

vocab_size
int vocab_size
Definition: true_bpe.h:185

QWEN2_0_5B_DECODE_TOTAL_BYTES
#define QWEN2_0_5B_DECODE_TOTAL_BYTES
Definition: v6.5/test_generated/ck-kernel-inference.h:37

QWEN2_0_5B_DECODE_HEAD_DIM
#define QWEN2_0_5B_DECODE_HEAD_DIM
Definition: v6.5/test_generated/ck-kernel-inference.h:28

QWEN2_0_5B_DECODE_PTR
#define QWEN2_0_5B_DECODE_PTR(model, offset)
Definition: v6.5/test_generated/ck-kernel-inference.h:1274

QWEN2_0_5B_DECODE_ACTIVATION_BYTES
#define QWEN2_0_5B_DECODE_ACTIVATION_BYTES
Definition: v6.5/test_generated/ck-kernel-inference.h:39

QWEN2_0_5B_DECODE_FOOTER
static const QWEN2_0_5B_DECODEFooterOffsets QWEN2_0_5B_DECODE_FOOTER
Definition: v6.5/test_generated/ck-kernel-inference.h:661

QWEN2_0_5B_DECODE_INTERMEDIATE
#define QWEN2_0_5B_DECODE_INTERMEDIATE
Definition: v6.5/test_generated/ck-kernel-inference.h:29

QWEN2_0_5B_DECODE_LAYERS
static const QWEN2_0_5B_DECODELayerOffsets QWEN2_0_5B_DECODE_LAYERS[24]
Definition: v6.5/test_generated/ck-kernel-inference.h:93

QWEN2_0_5B_DECODE_DTYPE_BYTES
#define QWEN2_0_5B_DECODE_DTYPE_BYTES
Definition: v6.5/test_generated/ck-kernel-inference.h:35

QWEN2_0_5B_DECODE_EMBED_DIM
#define QWEN2_0_5B_DECODE_EMBED_DIM
Definition: v6.5/test_generated/ck-kernel-inference.h:25

QWEN2_0_5B_DECODE_MAGIC
#define QWEN2_0_5B_DECODE_MAGIC
Definition: v6.5/test_generated/ck-kernel-inference.h:41

QWEN2_0_5B_DECODE_CANARY_COUNT
#define QWEN2_0_5B_DECODE_CANARY_COUNT
Definition: v6.5/test_generated/ck-kernel-inference.h:1259

QWEN2_0_5B_DECODE_MAX_SEQ_LEN
#define QWEN2_0_5B_DECODE_MAX_SEQ_LEN
Definition: v6.5/test_generated/ck-kernel-inference.h:32

QWEN2_0_5B_DECODE_NUM_LAYERS
#define QWEN2_0_5B_DECODE_NUM_LAYERS
Definition: v6.5/test_generated/ck-kernel-inference.h:30

QWEN2_0_5B_DECODE_WEIGHT_BYTES
#define QWEN2_0_5B_DECODE_WEIGHT_BYTES
Definition: v6.5/test_generated/ck-kernel-inference.h:38

QWEN2_0_5B_DECODE_CANARY_VALUE
#define QWEN2_0_5B_DECODE_CANARY_VALUE
Definition: v6.5/test_generated/ck-kernel-inference.h:42

QWEN2_0_5B_DECODE_GLOBALS
static const QWEN2_0_5B_DECODEGlobalOffsets QWEN2_0_5B_DECODE_GLOBALS
Definition: v6.5/test_generated/ck-kernel-inference.h:677

QWEN2_0_5B_DECODE_NUM_KV_HEADS
#define QWEN2_0_5B_DECODE_NUM_KV_HEADS
Definition: v6.5/test_generated/ck-kernel-inference.h:27

QWEN2_0_5B_DECODE_NUM_HEADS
#define QWEN2_0_5B_DECODE_NUM_HEADS
Definition: v6.5/test_generated/ck-kernel-inference.h:26

QWEN2_0_5B_DECODE_CANARY_SIZE
#define QWEN2_0_5B_DECODE_CANARY_SIZE
Definition: v6.5/test_generated/ck-kernel-inference.h:43

QWEN2_0_5B_DECODE_VOCAB_SIZE
#define QWEN2_0_5B_DECODE_VOCAB_SIZE
Definition: v6.5/test_generated/ck-kernel-inference.h:31

QWEN2_0_5B_DECODE_HEADER
static const QWEN2_0_5B_DECODEHeaderOffsets QWEN2_0_5B_DECODE_HEADER
Definition: v6.5/test_generated/ck-kernel-inference.h:57

QWEN2_0_5B_DECODE_CANARIES
static const QWEN2_0_5B_DECODECanary QWEN2_0_5B_DECODE_CANARIES[]
Definition: v6.5/test_generated/ck-kernel-inference.h:691

qwen2_0_5b_decode_layer_18_prefill
static void qwen2_0_5b_decode_layer_18_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:3163

qwen2_0_5b_decode_layer_2_prefill
static void qwen2_0_5b_decode_layer_2_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:539

qwen2_0_5b_decode_layer_1_prefill
static void qwen2_0_5b_decode_layer_1_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:375

qwen2_0_5b_decode_layer_8_prefill
static void qwen2_0_5b_decode_layer_8_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:1523

qwen2_0_5b_decode_layer_3_decode
static void qwen2_0_5b_decode_layer_3_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:4948

ck_model_get_config
const CKModelConfig * ck_model_get_config(void)
Definition: v6.5/test_generated/qwen2_int8.c:8869

qwen2_0_5b_decode_layer_18_decode
static void qwen2_0_5b_decode_layer_18_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:7663

qwen2_0_5b_decode_layer_16_decode
static void qwen2_0_5b_decode_layer_16_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:7301

qwen2_0_5b_decode_layer_20_prefill
static void qwen2_0_5b_decode_layer_20_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:3491

qwen2_0_5b_decode_precompute_rope
void qwen2_0_5b_decode_precompute_rope(QWEN2_0_5B_DECODEModel *model)
Definition: v6.5/test_generated/qwen2_int8.c:186

qwen2_0_5b_decode_layer_0_prefill
static void qwen2_0_5b_decode_layer_0_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:211

qwen2_0_5b_decode_verify_canaries
int qwen2_0_5b_decode_verify_canaries(QWEN2_0_5B_DECODEModel *model)
Definition: v6.5/test_generated/qwen2_int8.c:152

qwen2_0_5b_decode_residual_add_token_major
static void qwen2_0_5b_decode_residual_add_token_major(const float *a, const float *b, float *out, int tokens, int aligned_embed_dim)
Definition: v6.5/test_generated/qwen2_int8.c:43

MagicHeader
MagicHeader
Definition: v6.5/test_generated/qwen2_int8.c:80

qwen2_0_5b_decode_layer_4_decode
static void qwen2_0_5b_decode_layer_4_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:5129

ck_model_create
void * ck_model_create(void)
Definition: v6.5/test_generated/qwen2_int8.c:8873

qwen2_0_5b_decode_layer_7_prefill
static void qwen2_0_5b_decode_layer_7_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:1359

qwen2_0_5b_decode_align_elems
static int qwen2_0_5b_decode_align_elems(int elems, int elem_bytes, int align_bytes)
Definition: v6.5/test_generated/qwen2_int8.c:176

g_model_config
static CKModelConfig g_model_config
Definition: v6.5/test_generated/qwen2_int8.c:8853

qwen2_0_5b_decode_layer_6_prefill
static void qwen2_0_5b_decode_layer_6_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:1195

qwen2_0_5b_decode_layer_8_decode
static void qwen2_0_5b_decode_layer_8_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:5853

qwen2_0_5b_decode_layer_5_decode
static void qwen2_0_5b_decode_layer_5_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:5310

qwen2_0_5b_decode_layer_13_decode
static void qwen2_0_5b_decode_layer_13_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:6758

qwen2_0_5b_decode_layer_19_prefill
static void qwen2_0_5b_decode_layer_19_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:3327

qwen2_0_5b_decode_model_allocate
int qwen2_0_5b_decode_model_allocate(QWEN2_0_5B_DECODEModel *model)
Definition: v6.5/test_generated/qwen2_int8.c:88

ck_model_precompute_rope
void ck_model_precompute_rope(void *model)
Definition: v6.5/test_generated/qwen2_int8.c:8889

qwen2_0_5b_decode_layer_0_decode
static void qwen2_0_5b_decode_layer_0_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:4405

qwen2_0_5b_decode_layer_19_decode
static void qwen2_0_5b_decode_layer_19_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:7844

qwen2_0_5b_decode_layer_6_decode
static void qwen2_0_5b_decode_layer_6_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:5491

qwen2_0_5b_decode_layer_7_decode
static void qwen2_0_5b_decode_layer_7_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:5672

qwen2_0_5b_decode_decode
void qwen2_0_5b_decode_decode(QWEN2_0_5B_DECODEModel *model, const int *token, int token_index)
Definition: v6.5/test_generated/qwen2_int8.c:8841

ck_model_forward
void ck_model_forward(void *model, const int *tokens, int num_tokens)
Definition: v6.5/test_generated/qwen2_int8.c:8893

qwen2_0_5b_decode_layer_15_prefill
static void qwen2_0_5b_decode_layer_15_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:2671

qwen2_0_5b_decode_layer_2_decode
static void qwen2_0_5b_decode_layer_2_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:4767

ck_model_verify_canaries
int ck_model_verify_canaries(void *model)
Definition: v6.5/test_generated/qwen2_int8.c:8906

qwen2_0_5b_decode_layer_17_prefill
static void qwen2_0_5b_decode_layer_17_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:2999

qwen2_0_5b_decode_layer_22_prefill
static void qwen2_0_5b_decode_layer_22_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:3819

qwen2_0_5b_decode_layer_3_prefill
static void qwen2_0_5b_decode_layer_3_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:703

qwen2_0_5b_decode_forward_prefill_impl
static void qwen2_0_5b_decode_forward_prefill_impl(QWEN2_0_5B_DECODEModel *model, const int *tokens, int num_tokens)
Definition: v6.5/test_generated/qwen2_int8.c:4148

qwen2_0_5b_decode_layer_13_prefill
static void qwen2_0_5b_decode_layer_13_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:2343

ck_model_free
void ck_model_free(void *model)
Definition: v6.5/test_generated/qwen2_int8.c:8883

qwen2_0_5b_decode_layer_21_prefill
static void qwen2_0_5b_decode_layer_21_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:3655

qwen2_0_5b_decode_layer_4_prefill
static void qwen2_0_5b_decode_layer_4_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:867

ck_model_get_base
void * ck_model_get_base(void *model)
Definition: v6.5/test_generated/qwen2_int8.c:8910

ck_model_decode
void ck_model_decode(void *model, const int *token, int token_index)
Definition: v6.5/test_generated/qwen2_int8.c:8897

qwen2_0_5b_decode_layer_9_decode
static void qwen2_0_5b_decode_layer_9_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:6034

qwen2_0_5b_decode_layer_10_decode
static void qwen2_0_5b_decode_layer_10_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:6215

qwen2_0_5b_decode_decode_token
static void qwen2_0_5b_decode_decode_token(QWEN2_0_5B_DECODEModel *model, const int *token, int token_index)
Definition: v6.5/test_generated/qwen2_int8.c:8750

qwen2_0_5b_decode_layer_21_decode
static void qwen2_0_5b_decode_layer_21_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:8206

qwen2_0_5b_decode_layer_22_decode
static void qwen2_0_5b_decode_layer_22_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:8387

qwen2_0_5b_decode_layer_11_decode
static void qwen2_0_5b_decode_layer_11_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:6396

qwen2_0_5b_decode_layer_12_prefill
static void qwen2_0_5b_decode_layer_12_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:2179

ck_model_get_total_bytes
size_t ck_model_get_total_bytes(void *model)
Definition: v6.5/test_generated/qwen2_int8.c:8914

qwen2_0_5b_decode_layer_23_decode
static void qwen2_0_5b_decode_layer_23_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:8568

ck_model_get_logits
float * ck_model_get_logits(void *model)
Definition: v6.5/test_generated/qwen2_int8.c:8901

qwen2_0_5b_decode_layer_16_prefill
static void qwen2_0_5b_decode_layer_16_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:2835

__attribute__
struct __attribute__((packed))
Definition: v6.5/test_generated/qwen2_int8.c:67

qwen2_0_5b_decode_layer_1_decode
static void qwen2_0_5b_decode_layer_1_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:4586

qwen2_0_5b_decode_forward
void qwen2_0_5b_decode_forward(QWEN2_0_5B_DECODEModel *model, const int *tokens, int num_tokens)
Definition: v6.5/test_generated/qwen2_int8.c:8832

qwen2_0_5b_decode_layer_5_prefill
static void qwen2_0_5b_decode_layer_5_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:1031

qwen2_0_5b_decode_layer_14_decode
static void qwen2_0_5b_decode_layer_14_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:6939

qwen2_0_5b_decode_layer_15_decode
static void qwen2_0_5b_decode_layer_15_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:7120

qwen2_0_5b_decode_layer_11_prefill
static void qwen2_0_5b_decode_layer_11_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:2015

qwen2_0_5b_decode_layer_14_prefill
static void qwen2_0_5b_decode_layer_14_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:2507

qwen2_0_5b_decode_layer_10_prefill
static void qwen2_0_5b_decode_layer_10_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:1851

qwen2_0_5b_decode_layer_12_decode
static void qwen2_0_5b_decode_layer_12_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:6577

qwen2_0_5b_decode_layer_9_prefill
static void qwen2_0_5b_decode_layer_9_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:1687

qwen2_0_5b_decode_layer_23_prefill
static void qwen2_0_5b_decode_layer_23_prefill(QWEN2_0_5B_DECODEModel *model, int num_tokens, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:3983

qwen2_0_5b_decode_model_free
void qwen2_0_5b_decode_model_free(QWEN2_0_5B_DECODEModel *model)
Definition: v6.5/test_generated/qwen2_int8.c:141

qwen2_0_5b_decode_layer_20_decode
static void qwen2_0_5b_decode_layer_20_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:8025

_Static_assert
_Static_assert(sizeof(MagicHeader)==64, "MagicHeader must be 64 bytes")

qwen2_0_5b_decode_layer_17_decode
static void qwen2_0_5b_decode_layer_17_decode(QWEN2_0_5B_DECODEModel *model, int token_index, int aligned_embed_dim, int aligned_head_dim, int aligned_intermediate_dim, int aligned_context_window)
Definition: v6.5/test_generated/qwen2_int8.c:7482

ck-kernel-inference.h
AUTO-GENERATED: qwen2_0.5b_decode Memory Layout.