GELU activation kernels for BF16 tensors. More...

#include <stdint.h>
#include <string.h>
#include "bf16_utils.h"
#include "ckernel_engine.h"

Functions
void	gelu_backward_exact_bf16 (const uint16_t input, const uint16_t d_output, uint16_t d_input, size_t n, float scratch_input, float scratch_d_output, float scratch_d_input)

void	gelu_backward_fast_bf16 (const uint16_t input, const uint16_t d_output, uint16_t d_input, size_t n, float scratch_input, float scratch_d_output, float scratch_d_input)

void	gelu_fast_inplace_bf16 (uint16_t data, size_t n, float scratch)

Detailed Description

GELU activation kernels for BF16 tensors.

CK-ENGINE KERNEL RULES:

NO malloc/free - memory via bump allocator, pointers passed in
NO OpenMP - parallelization at orchestrator/codegen layer
API must define: inputs, outputs, workspace, and memory layouts
Pure computation - deterministic, no side effects

After changes: make test && make llamacpp-parity-full

GELU: y = x * 0.5 * (1 + erf(x / sqrt(2)))

Definition in file gelu_kernels_bf16.c.

Function Documentation

◆ gelu_backward_exact_bf16()

void gelu_backward_exact_bf16	(	const uint16_t *	input,
		const uint16_t *	d_output,
		uint16_t *	d_input,
		size_t	n,
		float *	scratch_input,
		float *	scratch_d_output,
		float *	scratch_d_input
	)

Definition at line 46 of file gelu_kernels_bf16.c.

 {
     if (!scratch_input || !scratch_d_output || !scratch_d_input) return;
  
     bf16_tensor_to_float(input, scratch_input, n);
     bf16_tensor_to_float(d_output, scratch_d_output, n);
  
     // Use scalar exact version to avoid fast tanh approximation error
     // accumulating with BF16 precision loss.
     gelu_backward_scalar(scratch_input, scratch_d_output, scratch_d_input, n);
  
     float_tensor_to_bf16(scratch_d_input, d_input, n);
 }

References bf16_tensor_to_float(), float_tensor_to_bf16(), and gelu_backward_scalar().

◆ gelu_backward_fast_bf16()

void gelu_backward_fast_bf16	(	const uint16_t *	input,
		const uint16_t *	d_output,
		uint16_t *	d_input,
		size_t	n,
		float *	scratch_input,
		float *	scratch_d_output,
		float *	scratch_d_input
	)

Definition at line 69 of file gelu_kernels_bf16.c.

 {
     if (!scratch_input || !scratch_d_output || !scratch_d_input) return;
  
     bf16_tensor_to_float(input, scratch_input, n);
     bf16_tensor_to_float(d_output, scratch_d_output, n);
  
     gelu_backward_fast(scratch_input, scratch_d_output, scratch_d_input, n);
  
     float_tensor_to_bf16(scratch_d_input, d_input, n);
 }

References bf16_tensor_to_float(), float_tensor_to_bf16(), and gelu_backward_fast().

◆ gelu_fast_inplace_bf16()

void gelu_fast_inplace_bf16	(	uint16_t *	data,
		size_t	n,
		float *	scratch
	)

Definition at line 31 of file gelu_kernels_bf16.c.

 {
     if (!scratch) return;
  
     bf16_tensor_to_float(data, scratch, n);
     // Use exact version to avoid fast tanh approximation error accumulating
     // with BF16 precision loss. Conversion overhead dominates anyway.
     gelu_exact_inplace(scratch, n);
     float_tensor_to_bf16(scratch, data, n);
 }