C-Kernel-Engine/doxygen/sigmoid__kernels__bf16_8c_source.html

 /**

  * @file sigmoid_kernels_bf16.c

  * @brief Sigmoid activation kernels for BF16 tensors

  *

  * CK-ENGINE KERNEL RULES:

  * =======================

  * 1. NO malloc/free - memory via bump allocator, pointers passed in

  * 2. NO OpenMP - parallelization at orchestrator/codegen layer

  * 3. API must define: inputs, outputs, workspace, and memory layouts

  * 4. Pure computation - deterministic, no side effects

  *

  * After changes: make test && make llamacpp-parity-full

  *

  * Sigmoid: y = 1 / (1 + exp(-x))

  */


 #include <stddef.h>

 #include <stdint.h>


 #include "bf16_utils.h"

 #include "ckernel_engine.h"


 /*

  * BF16 sigmoid forward with caller-provided scratch buffers.

  * scratch_input, scratch_output: each [n] floats

  */

 void sigmoid_forward_bf16(const uint16_t *input,

                           uint16_t *output,

                           size_t n,

                           float *scratch_input,

                           float *scratch_output)

 {

     if (!input || !output || n == 0) return;

     if (!scratch_input || !scratch_output) return;


     bf16_tensor_to_float(input, scratch_input, n);

     sigmoid_forward(scratch_input, scratch_output, n);

     float_tensor_to_bf16(scratch_output, output, n);

 }


 /*

  * BF16 sigmoid backward with caller-provided scratch buffers.

  * scratch_input, scratch_d_output, scratch_d_input: each [n] floats

  */

 void sigmoid_backward_bf16(const uint16_t *input,

                            const uint16_t *d_output,

                            uint16_t *d_input,

                            size_t n,

                            float *scratch_input,

                            float *scratch_d_output,

                            float *scratch_d_input)

 {

     if (!input || !d_output || !d_input || n == 0) return;

     if (!scratch_input || !scratch_d_output || !scratch_d_input) return;


     bf16_tensor_to_float(input, scratch_input, n);

     bf16_tensor_to_float(d_output, scratch_d_output, n);

     sigmoid_backward(scratch_input, scratch_d_output, scratch_d_input, n);

     float_tensor_to_bf16(scratch_d_input, d_input, n);

 }

bf16_utils.h

float_tensor_to_bf16
static void float_tensor_to_bf16(const float *src, uint16_t *dst, size_t count)
Definition: bf16_utils.h:271

bf16_tensor_to_float
static void bf16_tensor_to_float(const uint16_t *src, float *dst, size_t count)
Definition: bf16_utils.h:250

ckernel_engine.h

sigmoid_backward
void sigmoid_backward(const float *input, const float *d_output, float *d_input, size_t n)
Definition: sigmoid_kernels.c:138

sigmoid_forward
void sigmoid_forward(const float *input, float *output, size_t n)
Definition: sigmoid_kernels.c:122

sigmoid_forward_bf16
void sigmoid_forward_bf16(const uint16_t *input, uint16_t *output, size_t n, float *scratch_input, float *scratch_output)
Definition: sigmoid_kernels_bf16.c:27

sigmoid_backward_bf16
void sigmoid_backward_bf16(const uint16_t *input, const uint16_t *d_output, uint16_t *d_input, size_t n, float *scratch_input, float *scratch_d_output, float *scratch_d_input)
Definition: sigmoid_kernels_bf16.c:45