C-Kernel-Engine/doxygen/ck__tokenizer_8h_source.html

 /*

  * C-Kernel-Engine BPE Tokenizer

  *

  * Pure C implementation of Byte-Pair Encoding tokenizer

  * compatible with HuggingFace tokenizer.json format.

  *

  * The tokenizer uses a memory pool for allocations and maps tokens

  * directly to dense embedding indices (token_id == embedding row).

  *

  * By Anthony Shivakumar

  */


 #ifndef CK_TOKENIZER_H

 #define CK_TOKENIZER_H


 #include <stddef.h>

 #include <stdint.h>

 #include <stdbool.h>


 #ifdef __cplusplus

 extern "C" {

 #endif


 /* Maximum token length in bytes */

 #define CK_MAX_TOKEN_LEN 256


 /* Maximum vocabulary size */

 #define CK_MAX_VOCAB_SIZE 256000


 /* Memory pool block size */

 #define CK_POOL_BLOCK_SIZE (1024 * 1024)  /* 1MB */


 /*

  * Memory pool for tokenizer allocations.

  * Avoids malloc overhead for small allocations.

  */

 typedef struct CKPoolBlock {

     uint8_t *data;

     size_t used;

     size_t capacity;

     struct CKPoolBlock *next;

 } CKPoolBlock;


 typedef struct {

     CKPoolBlock *head;

     CKPoolBlock *current;

     size_t total_allocated;

 } CKMemPool;


 /*

  * Vocabulary entry.

  * Token string -> ID mapping.

  * IDs are dense indices into the embedding table.

  */

 typedef struct CKVocabEntry {

     char *token;           /* Token string (UTF-8) */

     int token_len;         /* Length in bytes */

     int32_t id;            /* Dense embedding index */

     struct CKVocabEntry *next;  /* Hash chain */

 } CKVocabEntry;


 /*

  * BPE merge rule.

  * Pair of token IDs -> merged token ID.

  */

 typedef struct {

     int32_t left;

     int32_t right;

     int32_t merged;

     int priority;  /* Lower = higher priority (earlier in merges list) */

 } CKMergeRule;


 /*

  * Tokenizer state.

  */

 typedef struct {

     /* Memory pool */

     CKMemPool pool;


     /* Vocabulary: token string -> ID */

     int vocab_size;

     CKVocabEntry **vocab_hash;  /* Hash table for string -> ID */

     int vocab_hash_size;


     /* Reverse vocabulary: ID -> token string */

     char **id_to_token;


     /* BPE merge rules */

     CKMergeRule *merges;

     int num_merges;


     /* Merge lookup: (left_id, right_id) -> merge index */

     int *merge_hash;

     int merge_hash_size;


     /* Special tokens */

     int32_t unk_id;

     int32_t bos_id;

     int32_t eos_id;

     int32_t pad_id;


     /* Config */

     bool add_bos;

     bool add_eos;

 } CKTokenizer;


 /*

  * Initialize memory pool.

  */

 void ck_pool_init(CKMemPool *pool);


 /*

  * Allocate from memory pool.

  */

 void *ck_pool_alloc(CKMemPool *pool, size_t size);


 /*

  * Allocate and copy string.

  */

 char *ck_pool_strdup(CKMemPool *pool, const char *s, int len);


 /*

  * Free memory pool.

  */

 void ck_pool_free(CKMemPool *pool);


 /*

  * Initialize tokenizer.

  * Returns 0 on success, -1 on error.

  */

 int ck_tokenizer_init(CKTokenizer *tok);


 /*

  * Load tokenizer from HuggingFace tokenizer.json.

  * Returns 0 on success, -1 on error.

  */

 int ck_tokenizer_load(CKTokenizer *tok, const char *path);


 /*

  * Add a token to the vocabulary.

  * Returns the token ID.

  */

 int32_t ck_tokenizer_add_token(CKTokenizer *tok, const char *token, int len);


 /*

  * Look up token ID by string.

  * Returns token ID or unk_id if not found.

  */

 int32_t ck_tokenizer_lookup(const CKTokenizer *tok, const char *token, int len);


 /*

  * Add a BPE merge rule.

  */

 int ck_tokenizer_add_merge(CKTokenizer *tok, int32_t left, int32_t right, int32_t merged);


 /*

  * Look up merge rule for a pair.

  * Returns merge index or -1 if no merge.

  */

 int ck_tokenizer_lookup_merge(const CKTokenizer *tok, int32_t left, int32_t right);


 /*

  * Encode text to token IDs.

  * Returns number of tokens written to `ids`.

  */

 int ck_tokenizer_encode(const CKTokenizer *tok,

                         const char *text,

                         int text_len,

                         int32_t *ids,

                         int max_ids);


 /*

  * Decode token IDs to text.

  * Returns number of bytes written to `text`.

  */

 int ck_tokenizer_decode(const CKTokenizer *tok,

                         const int32_t *ids,

                         int num_ids,

                         char *text,

                         int max_len);


 /*

  * Get token string for an ID.

  * Returns NULL if ID is invalid.

  */

 const char *ck_tokenizer_id_to_token(const CKTokenizer *tok, int32_t id);


 /*

  * Free tokenizer resources.

  */

 void ck_tokenizer_free(CKTokenizer *tok);


 /*

  * Get vocabulary size.

  */

 static inline int ck_tokenizer_vocab_size(const CKTokenizer *tok) {

     return tok->vocab_size;

 }


 #ifdef __cplusplus

 }

 #endif


 #endif /* CK_TOKENIZER_H */

ck_tokenizer_add_merge
int ck_tokenizer_add_merge(CKTokenizer *tok, int32_t left, int32_t right, int32_t merged)
Definition: ck_tokenizer.c:248

ck_pool_init
void ck_pool_init(CKMemPool *pool)
Definition: ck_tokenizer.c:51

ck_tokenizer_lookup
int32_t ck_tokenizer_lookup(const CKTokenizer *tok, const char *token, int len)
Definition: ck_tokenizer.c:227

ck_tokenizer_decode
int ck_tokenizer_decode(const CKTokenizer *tok, const int32_t *ids, int num_ids, char *text, int max_len)
Definition: ck_tokenizer.c:737

ck_tokenizer_init
int ck_tokenizer_init(CKTokenizer *tok)
Definition: ck_tokenizer.c:148

ck_tokenizer_id_to_token
const char * ck_tokenizer_id_to_token(const CKTokenizer *tok, int32_t id)
Definition: ck_tokenizer.c:239

ck_tokenizer_load
int ck_tokenizer_load(CKTokenizer *tok, const char *path)
Definition: ck_tokenizer.c:432

ck_pool_alloc
void * ck_pool_alloc(CKMemPool *pool, size_t size)
Definition: ck_tokenizer.c:69

ck_pool_strdup
char * ck_pool_strdup(CKMemPool *pool, const char *s, int len)
Definition: ck_tokenizer.c:98

ck_tokenizer_encode
int ck_tokenizer_encode(const CKTokenizer *tok, const char *text, int text_len, int32_t *ids, int max_ids)
Definition: ck_tokenizer.c:638

ck_tokenizer_add_token
int32_t ck_tokenizer_add_token(CKTokenizer *tok, const char *token, int len)
Definition: ck_tokenizer.c:196

ck_pool_free
void ck_pool_free(CKMemPool *pool)
Definition: ck_tokenizer.c:107

ck_tokenizer_free
void ck_tokenizer_free(CKTokenizer *tok)
Definition: ck_tokenizer.c:183

ck_tokenizer_lookup_merge
int ck_tokenizer_lookup_merge(const CKTokenizer *tok, int32_t left, int32_t right)
Definition: ck_tokenizer.c:276

ck_tokenizer_vocab_size
static int ck_tokenizer_vocab_size(const CKTokenizer *tok)
Definition: ck_tokenizer.h:196

CKMemPool
Definition: ck_tokenizer.h:44

CKMemPool::current
CKPoolBlock * current
Definition: ck_tokenizer.h:46

CKMemPool::head
CKPoolBlock * head
Definition: ck_tokenizer.h:45

CKMemPool::total_allocated
size_t total_allocated
Definition: ck_tokenizer.h:47

CKMergeRule
Definition: ck_tokenizer.h:66

CKMergeRule::left
int32_t left
Definition: ck_tokenizer.h:67

CKMergeRule::right
int32_t right
Definition: ck_tokenizer.h:68

CKMergeRule::merged
int32_t merged
Definition: ck_tokenizer.h:69

CKMergeRule::priority
int priority
Definition: ck_tokenizer.h:70

CKPoolBlock
Definition: ck_tokenizer.h:37

CKPoolBlock::data
uint8_t * data
Definition: ck_tokenizer.h:38

CKPoolBlock::next
struct CKPoolBlock * next
Definition: ck_tokenizer.h:41

CKPoolBlock::used
size_t used
Definition: ck_tokenizer.h:39

CKPoolBlock::capacity
size_t capacity
Definition: ck_tokenizer.h:40

CKTokenizer
Definition: ck_tokenizer.h:76

CKTokenizer::bos_id
int32_t bos_id
Definition: ck_tokenizer.h:98

CKTokenizer::pool
CKMemPool pool
Definition: ck_tokenizer.h:78

CKTokenizer::unk_id
int32_t unk_id
Definition: ck_tokenizer.h:97

CKTokenizer::vocab_hash
CKVocabEntry ** vocab_hash
Definition: ck_tokenizer.h:82

CKTokenizer::eos_id
int32_t eos_id
Definition: ck_tokenizer.h:99

CKTokenizer::vocab_hash_size
int vocab_hash_size
Definition: ck_tokenizer.h:83

CKTokenizer::add_eos
bool add_eos
Definition: ck_tokenizer.h:104

CKTokenizer::merge_hash_size
int merge_hash_size
Definition: ck_tokenizer.h:94

CKTokenizer::merges
CKMergeRule * merges
Definition: ck_tokenizer.h:89

CKTokenizer::id_to_token
char ** id_to_token
Definition: ck_tokenizer.h:86

CKTokenizer::num_merges
int num_merges
Definition: ck_tokenizer.h:90

CKTokenizer::vocab_size
int vocab_size
Definition: ck_tokenizer.h:81

CKTokenizer::merge_hash
int * merge_hash
Definition: ck_tokenizer.h:93

CKTokenizer::add_bos
bool add_bos
Definition: ck_tokenizer.h:103

CKTokenizer::pad_id
int32_t pad_id
Definition: ck_tokenizer.h:100

CKVocabEntry
Definition: ck_tokenizer.h:55

CKVocabEntry::next
struct CKVocabEntry * next
Definition: ck_tokenizer.h:59

CKVocabEntry::token
char * token
Definition: ck_tokenizer.h:56

CKVocabEntry::token_len
int token_len
Definition: ck_tokenizer.h:57

CKVocabEntry::id
int32_t id
Definition: ck_tokenizer.h:58

ids
const int32_t * ids
Definition: tokenizer.h:443

num_ids
const int32_t int num_ids
Definition: tokenizer.h:444

text
const char * text
Definition: tokenizer.h:563

token
const char * token
Definition: tokenizer.h:306

max_len
const int32_t int char int max_len
Definition: true_bpe.h:280

text_len
const char int text_len
Definition: true_bpe.h:262

left
const char * left
Definition: true_bpe.h:130

max_ids
const char int int32_t int max_ids
Definition: true_bpe.h:264

right
const char const char * right
Definition: true_bpe.h:131