Functions
void	gemv_fused_q5_0_bias_parallel_omp (float y, const void W, const float x, const float bias, int M, int K)

void	gemv_q5_0_q8_0_parallel_omp (float y, const void W, const void *x_q8, int M, int K)

void	gemv_q8_0_q8_0_parallel_omp (float y, const void W, const void *x_q8, int M, int K)

Function Documentation

◆ gemv_fused_q5_0_bias_parallel_omp()

void gemv_fused_q5_0_bias_parallel_omp	(	float *	y,
		const void *	W,
		const float *	x,
		const float *	bias,
		int	M,
		int	K
	)

Definition at line 96 of file gemv_omp.c.

 {
     const block_q5_0 *w_blocks = (const block_q5_0 *)W;
     const int blocks_per_row = K / QK5_0;
  
     /* Quantize input ONCE (serial, fast — K=896 → 28 blocks = 952 bytes) */
     block_q8_0 x_q8[K / QK8_0];
     quantize_row_q8_0(x, (void *)x_q8, K);
  
     /* Parallel GEMV over output rows */
     #pragma omp parallel for schedule(static)
     for (int row = 0; row < M; row++) {
         vec_dot_q5_0_q8_0(K, &y[row],
                           &w_blocks[row * blocks_per_row],
                           x_q8);
         if (bias) y[row] += bias[row];
     }
 }

References QK5_0, QK8_0, quantize_row_q8_0(), and vec_dot_q5_0_q8_0().

◆ gemv_q5_0_q8_0_parallel_omp()

void gemv_q5_0_q8_0_parallel_omp	(	float *	y,
		const void *	W,
		const void *	x_q8,
		int	M,
		int	K
	)

Definition at line 72 of file gemv_omp.c.

 {
     const block_q5_0 *w_blocks = (const block_q5_0 *)W;
     const block_q8_0 *x_blocks = (const block_q8_0 *)x_q8;
     const int blocks_per_row = K / QK5_0;
  
     #pragma omp parallel for schedule(static)
     for (int row = 0; row < M; row++) {
         vec_dot_q5_0_q8_0(K, &y[row],
                           &w_blocks[row * blocks_per_row],
                           x_blocks);
     }
 }

References QK5_0, and vec_dot_q5_0_q8_0().

◆ gemv_q8_0_q8_0_parallel_omp()

void gemv_q8_0_q8_0_parallel_omp	(	float *	y,
		const void *	W,
		const void *	x_q8,
		int	M,
		int	K
	)

Definition at line 50 of file gemv_omp.c.

 {
     const block_q8_0 *w_blocks = (const block_q8_0 *)W;
     const block_q8_0 *x_blocks = (const block_q8_0 *)x_q8;
     const int blocks_per_row = K / QK8_0;
  
     #pragma omp parallel for schedule(static)
     for (int row = 0; row < M; row++) {
         vec_dot_q8_0_q8_0(K, &y[row],
                           &w_blocks[row * blocks_per_row],
                           x_blocks);
     }
 }

References QK8_0, and vec_dot_q8_0_q8_0().

Functions

Function Documentation

◆ gemv_fused_q5_0_bias_parallel_omp()

◆ gemv_q5_0_q8_0_parallel_omp()

◆ gemv_q8_0_q8_0_parallel_omp()