ReLU activation kernels with SIMD (SSE/AVX/AVX512) More...

#include <math.h>
#include <stddef.h>
#include <stdint.h>

Functions
void	relu_backward (const float input, const float d_output, float *d_input, size_t n)

void	relu_forward (const float input, float output, size_t n)

void	relu_forward_inplace (float *data, size_t n)

Detailed Description

ReLU activation kernels with SIMD (SSE/AVX/AVX512)

CK-ENGINE KERNEL RULES:

NO malloc/free - memory via bump allocator, pointers passed in
NO OpenMP - parallelization at orchestrator/codegen layer
API must define: inputs, outputs, workspace, and memory layouts
Pure computation - deterministic, no side effects

After changes: make test && make llamacpp-parity-full

ReLU: y = max(0, x)

Definition in file relu_kernels.c.

Function Documentation

◆ relu_backward()

void relu_backward	(	const float *	input,
		const float *	d_output,
		float *	d_input,
		size_t	n
	)

Definition at line 84 of file relu_kernels.c.

 {
     size_t i = 0;
  
 #if defined(__AVX512F__)
     __m512 vzero = _mm512_setzero_ps();
     for (; i + 15 < n; i += 16) {
         __m512 vx = _mm512_loadu_ps(input + i);
         __m512 vdy = _mm512_loadu_ps(d_output + i);
         __mmask16 mask = _mm512_cmp_ps_mask(vx, vzero, _CMP_GT_OQ);
         __m512 vdx = _mm512_maskz_mov_ps(mask, vdy);
         _mm512_storeu_ps(d_input + i, vdx);
     }
 #elif defined(__AVX2__) || defined(__AVX__)
     __m256 vzero = _mm256_setzero_ps();
     for (; i + 7 < n; i += 8) {
         __m256 vx = _mm256_loadu_ps(input + i);
         __m256 vdy = _mm256_loadu_ps(d_output + i);
         // Result is all 1s (0xFFFFFFFF) if true, 0 if false.
         __m256 mask = _mm256_cmp_ps(vx, vzero, _CMP_GT_OQ);
         __m256 vdx = _mm256_and_ps(mask, vdy);
         _mm256_storeu_ps(d_input + i, vdx);
     }
 #endif
  
     // Scalar fallback
     for (; i < n; ++i) {
         d_input[i] = (input[i] > 0.0f) ? d_output[i] : 0.0f;
     }
 }

References mask.

◆ relu_forward()

void relu_forward	(	const float *	input,
		float *	output,
		size_t	n
	)

Definition at line 26 of file relu_kernels.c.

 {
     size_t i = 0;
  
 #if defined(__AVX512F__)
     __m512 vzero = _mm512_setzero_ps();
     for (; i + 15 < n; i += 16) {
         __m512 vx = _mm512_loadu_ps(input + i);
         __m512 vy = _mm512_max_ps(vx, vzero);
         _mm512_storeu_ps(output + i, vy);
     }
 #elif defined(__AVX2__) || defined(__AVX__)
     __m256 vzero = _mm256_setzero_ps();
     for (; i + 7 < n; i += 8) {
         __m256 vx = _mm256_loadu_ps(input + i);
         __m256 vy = _mm256_max_ps(vx, vzero);
         _mm256_storeu_ps(output + i, vy);
     }
 #endif
  
     // Scalar fallback
     for (; i < n; ++i) {
         float x = input[i];
         output[i] = (x > 0.0f) ? x : 0.0f;
     }
 }

◆ relu_forward_inplace()

void relu_forward_inplace	(	float *	data,
		size_t	n
	)

Definition at line 54 of file relu_kernels.c.