C-Kernel-Engine/doxygen/tokenizer_8h_source.html

 /*

  * C-Kernel-Engine Tokenizer

  *

  * High-performance tokenizer supporting:

  * - BPE (Byte-Pair Encoding): GPT-2, LLaMA, Qwen

  * - WordPiece: BERT, RoBERTa

  * - SentencePiece (unigram): LLaMA, T5

  *

  * Features:

  * - MurmurHash3 hashing

  * - AVX-512 optimized string comparison

  * - Greedy longest-match encoding

  * - Full UTF-8 support

  * - GGUF vocab loading

  *

  * By Anthony Shivakumar

  */


 #ifndef CK_TOKENIZER_H

 #define CK_TOKENIZER_H


 #include <stddef.h>

 #include <stdint.h>

 #include <stdbool.h>


 #include "tokenizer/murmurhash3.h"

 #include "tokenizer/memory_pool.h"

 #include "tokenizer/hash_table.h"

 #include "tokenizer/utf8.h"

 #include "data_structures/tries/trie.h"


 #ifdef __cplusplus

 extern "C" {

 #endif


 /* Export macro */

 #ifdef _WIN32

 #define CK_TOKENIZER_API __declspec(dllexport)

 #else

 #define CK_TOKENIZER_API __attribute__((visibility("default")))

 #endif


 /* Maximum token length */

 #define CK_TOKENIZER_MAX_TOKEN_LEN 256


 /* Maximum vocabulary size */

 #define CK_TOKENIZER_MAX_VOCAB_SIZE 256000


 /* Default hash table size */

 #define CK_TOKENIZER_DEFAULT_HT_SIZE 65536


 /* Tokenizer model type */

 typedef enum {

     CK_TOKENIZER_BPE = 0,        /* Byte-Pair Encoding (GPT-2, LLaMA, Qwen) */

     CK_TOKENIZER_WORDPIECE = 1,  /* WordPiece (BERT, RoBERTa) */

     CK_TOKENIZER_SPM = 2         /* SentencePiece (unigram) */

 } CKTokenizerType;


 /* Space prefix style for BPE tokenizers */

 typedef enum {

     CK_SPACE_PREFIX_AUTO = 0,    /* Auto-detect from vocabulary */

     CK_SPACE_PREFIX_GPT2 = 1,    /* GPT-2 style: Ġ (U+0120, bytes 0xC4 0xA0) */

     CK_SPACE_PREFIX_SPM = 2      /* SentencePiece style: ▁ (U+2581, bytes 0xE2 0x96 0x81) */

 } CKSpacePrefixStyle;


 /* SentencePiece mode */

 typedef enum {

     CK_SPM_MODE_UNIGRAM = 0,     /* SentencePiece unigram/Viterbi */

     CK_SPM_MODE_LLAMA = 1        /* llama.cpp merge-style SPM */

 } CKSpmMode;


 /* Tokenizer configuration */

 typedef struct {

     CKTokenizerType type;           /* Tokenization algorithm */

     bool add_bos;                   /* Add beginning-of-sequence token */

     bool add_eos;                   /* Add end-of-sequence token */

     bool add_space_prefix;          /* For SPM: add ▁ at start (SentencePiece) */

     bool lowercase;                 /* Convert text to lowercase before tokenizing */

     bool treat_whitespace_as_suffix; /* For SentencePiece */

     float unk_score;               /* Unknown token score (for SPM) */

     bool use_trie;                  /* Use trie for lookups (faster), false = use hash table */

     CKSpacePrefixStyle space_prefix_style; /* Space prefix style (GPT-2 Ġ vs SentencePiece ▁) */

     bool space_prefix_detected;     /* True if auto-detection has run */

     CKSpmMode spm_mode;             /* SPM mode: unigram or llama-style */

 } CKTokenizerConfig;


 /* Vocabulary entry */

 typedef struct {

     int32_t id;                     /* Token ID */

     float score;                    /* Score (for SPM) */

     bool is_special;                /* Is special token */

 } CKTokenizerToken;


 /* Main tokenizer structure */

 typedef struct CKTokenizer {

     /* Configuration */

     CKTokenizerConfig config;


     /* Vocabulary: token string -> token info */

     CKTokenizerHashTable *vocab;


     /* Trie for fast longest-match lookups (O(k) instead of O(n*k)) */

     CKTrie *vocab_trie;


     /* Reverse vocabulary: ID -> token string */

     char **id_to_token;

     size_t vocab_size;

     size_t vocab_capacity;


     /* Token scores for SPM (Viterbi/DP encoding) */

     float *scores;

     size_t scores_size;    /* Allocated size for scores array */

     uint8_t *types;  /* Token type (GGUF: 1=normal, 2=unknown, 3=control, 4=user_defined, 6=byte) */

     size_t types_size;    /* Allocated size for types array */


     /* Byte token lookup table for SPM (built during load) */

     int32_t *byte_token_id;  /* Map byte value (0-255) to token ID, -1 = not found */


     /* Special token IDs */

     int32_t unk_id;

     int32_t bos_id;

     int32_t eos_id;

     int32_t pad_id;

     int32_t mask_id;


     /* Memory pool for allocations */

     CKTokenizerMemPool pool;


     /* For BPE: merge rules */

     int32_t *merge_pairs;           /* left_id * vocab_size + right_id -> merge priority */

     size_t merge_pairs_size;

     int32_t *merge_result;          /* merge priority -> merged token ID */

     size_t merge_result_size;

     int32_t num_merges;


     /* Cache for encoding */

     char *encode_buffer;

     size_t encode_buffer_size;

 } CKTokenizer;


 /* ============================================================================

  * Initialization and Cleanup

  * ============================================================================ */


 /**

  * Create a new tokenizer.

  *

  * @param type     Tokenizer type (BPE, WordPiece, SPM)

  * @return         Newly allocated tokenizer, or NULL on error

  */

 CK_TOKENIZER_API CKTokenizer *ck_tokenizer_create(CKTokenizerType type);


 /**

  * Create tokenizer with default BPE config.

  */

 static inline CKTokenizer *ck_tokenizer_create_bpe(void) {

     return ck_tokenizer_create(CK_TOKENIZER_BPE);

 }


 /**

  * Create tokenizer with default WordPiece config.

  */

 static inline CKTokenizer *ck_tokenizer_create_wordpiece(void) {

     return ck_tokenizer_create(CK_TOKENIZER_WORDPIECE);

 }


 /**

  * Create tokenizer with default SPM config.

  */

 static inline CKTokenizer *ck_tokenizer_create_spm(void) {

     return ck_tokenizer_create(CK_TOKENIZER_SPM);

 }


 /**

  * Free a tokenizer.

  *

  * @param tok  Tokenizer to free

  */

 CK_TOKENIZER_API void ck_tokenizer_free(CKTokenizer *tok);


 /**

  * Reset tokenizer state (clear vocab but keep config).

  *

  * @param tok  Tokenizer to reset

  */

 CK_TOKENIZER_API void ck_tokenizer_reset(CKTokenizer *tok);


 /* ============================================================================

  * Vocabulary Management

  * ============================================================================ */


 /**

  * Add a token to vocabulary.

  *

  * @param tok    Tokenizer

  * @param token  Token string

  * @param id     Token ID

  * @param score  Token score (for SPM)

  * @return       0 on success, -1 on error

  */

 int ck_tokenizer_add_token(CKTokenizer *tok,

                            const char *token,

                            int32_t id,

                            float score);


 /**

  * Add special token (UNK, BOS, EOS, PAD, MASK).

  *

  * @param tok    Tokenizer

  * @param name   Special token name ("unk", "bos", "eos", "pad", "mask")

  * @param id     Token ID

  * @return       0 on success, -1 on error

  */

 int ck_tokenizer_add_special_token(CKTokenizer *tok,

                                    const char *name,

                                    int32_t id);


 /**

  * Set special token IDs.

  *

  * @param tok    Tokenizer

  * @param unk    Unknown token ID

  * @param bos    Beginning-of-sequence token ID

  * @param eos    End-of-sequence token ID

  * @param pad    Padding token ID

  * @param mask   Mask token ID

  */

 CK_TOKENIZER_API void ck_tokenizer_set_special_ids(CKTokenizer *tok,

                                   int32_t unk,

                                   int32_t bos,

                                   int32_t eos,

                                   int32_t pad,

                                   int32_t mask);


 /**

  * Set whether to add BOS/EOS tokens during encoding.

  *

  * @param tok      Tokenizer

  * @param add_bos  If true, prepend BOS token (if available)

  * @param add_eos  If true, append EOS token (if available)

  */

 CK_TOKENIZER_API void ck_tokenizer_set_add_bos_eos(CKTokenizer *tok, bool add_bos, bool add_eos);


 /**

  * Set whether to add the SentencePiece space prefix (▁) at the start.

  *

  * This mirrors SentencePiece's add_dummy_prefix behavior.

  *

  * @param tok              Tokenizer

  * @param add_space_prefix If true, add leading ▁ when appropriate

  */

 CK_TOKENIZER_API void ck_tokenizer_set_add_space_prefix(CKTokenizer *tok, bool add_space_prefix);


 /**

  * Set SentencePiece mode.

  *

  * @param tok       Tokenizer

  * @param spm_mode  SPM mode (unigram or llama-style)

  */

 CK_TOKENIZER_API void ck_tokenizer_set_spm_mode(CKTokenizer *tok, CKSpmMode spm_mode);


 /**

  * Set whether to lowercase input text before tokenizing.

  *

  * @param tok        Tokenizer

  * @param lowercase  If true, convert text to lowercase

  */

 CK_TOKENIZER_API void ck_tokenizer_set_lowercase(CKTokenizer *tok, bool lowercase);


 /**

  * Set lookup method (trie vs hash table).

  *

  * @param tok      Tokenizer

  * @param use_trie If true, use trie (faster for longest-match), false = hash table

  */

 CK_TOKENIZER_API void ck_tokenizer_set_use_trie(CKTokenizer *tok, bool use_trie);


 /**

  * Set space prefix style for BPE tokenizers.

  *

  * GPT-2/Qwen use Ġ (U+0120), LLaMA/SentencePiece use ▁ (U+2581).

  * Default is AUTO which auto-detects from vocabulary.

  *

  * @param tok    Tokenizer

  * @param style  Space prefix style (AUTO, GPT2, or SPM)

  */

 CK_TOKENIZER_API void ck_tokenizer_set_space_prefix_style(CKTokenizer *tok, CKSpacePrefixStyle style);


 /**

  * Auto-detect space prefix style from vocabulary.

  *

  * Checks for presence of tokens starting with Ġ vs ▁ to determine style.

  *

  * @param tok    Tokenizer

  * @return       Detected style (GPT2 or SPM)

  */

 CK_TOKENIZER_API CKSpacePrefixStyle ck_tokenizer_detect_space_prefix_style(CKTokenizer *tok);


 /**

  * Look up token ID by string.

  *

  * @param tok    Tokenizer

  * @param token  Token string

  * @return       Token ID, or unk_id if not found

  */

 CK_TOKENIZER_API int32_t ck_tokenizer_lookup(const CKTokenizer *tok, const char *token);


 /**

  * Get token string by ID.

  *

  * @param tok    Tokenizer

  * @param id     Token ID

  * @return       Token string, or NULL if invalid

  */

 CK_TOKENIZER_API const char *ck_tokenizer_id_to_token(const CKTokenizer *tok, int32_t id);


 /**

  * Get token info by ID.

  *

  * @param tok    Tokenizer

  * @param id     Token ID

  * @param score  Output: token score

  * @return       Token string, or NULL if invalid

  */

 CK_TOKENIZER_API const char *ck_tokenizer_id_to_token_info(const CKTokenizer *tok,

                                           int32_t id,

                                           float *score);


 /**

  * Get vocabulary size.

  */

 static inline size_t ck_tokenizer_vocab_size(const CKTokenizer *tok) {

     return tok ? tok->vocab_size : 0;

 }


 /* ============================================================================

  * BPE Merge Rules

  * ============================================================================ */


 /**

  * Add a BPE merge rule.

  *

  * @param tok        Tokenizer

  * @param left_id    Left token ID

  * @param right_id   Right token ID

  * @param merged_id  Merged token ID

  * @param priority   Lower = higher priority (applied first)

  * @return           0 on success, -1 on error

  */

 int ck_tokenizer_add_merge(CKTokenizer *tok,

                            int32_t left_id,

                            int32_t right_id,

                            int32_t merged_id,

                            int32_t priority);


 /* ============================================================================

  * Encoding (Text -> Token IDs)

  * ============================================================================ */


 /**

  * Encode text to token IDs using greedy longest-match.

  *

  * For BPE: applies merge rules iteratively.

  * For WordPiece/SPM: greedy longest-match from vocabulary.

  *

  * @param tok        Tokenizer

  * @param text       Input text

  * @param text_len   Text length, or -1 for null-terminated

  * @param ids        Output token IDs

  * @param max_ids    Maximum IDs to write

  * @return           Number of tokens written

  */

 int ck_tokenizer_encode(const CKTokenizer *tok,

                         const char *text,

                         int text_len,

                         int32_t *ids,

                         int max_ids);


 /**

  * Encode with special token handling.

  *

  * @param tok        Tokenizer

  * @param text       Input text

  * @param text_len   Text length, or -1 for null-terminated

  * @param ids        Output token IDs

  * @param max_ids    Maximum IDs to write

  * @param add_special Add BOS/EOS tokens

  * @return           Number of tokens written

  */

 int ck_tokenizer_encode_with_special(CKTokenizer *tok,

                                      const char *text,

                                      int text_len,

                                      int32_t *ids,

                                      int max_ids,

                                      bool add_special);


 /**

  * Encode and return tokens as array of strings.

  *

  * @param tok        Tokenizer

  * @param text       Input text

  * @param text_len   Text length

  * @param out_tokens Output token strings (caller must free each)

  * @param max_tokens Maximum tokens

  * @return           Number of tokens written

  */

 int ck_tokenizer_encode_tokens(const CKTokenizer *tok,

                                const char *text,

                                int text_len,

                                const char **out_tokens,

                                int max_tokens);


 /* ============================================================================

  * Decoding (Token IDs -> Text)

  * ============================================================================ */


 /**

  * Decode token IDs to text.

  *

  * @param tok      Tokenizer

  * @param ids      Input token IDs

  * @param num_ids  Number of IDs

  * @param text     Output text buffer

  * @param max_len  Maximum text length

  * @return         Number of bytes written

  */

 int ck_tokenizer_decode(const CKTokenizer *tok,

                         const int32_t *ids,

                         int num_ids,

                         char *text,

                         int max_len);


 /**

  * Decode to buffer allocated by caller.

  *

  * @param tok      Tokenizer

  * @param ids      Input token IDs

  * @param num_ids  Number of IDs

  * @param out_len  Output: length of decoded string

  * @return         Newly allocated string, or NULL on error

  */

 CK_TOKENIZER_API char *ck_tokenizer_decode_alloc(const CKTokenizer *tok,

                                 const int32_t *ids,

                                 int num_ids,

                                 int *out_len);


 /* ============================================================================

  * File Loading

  * ============================================================================ */


 /**

  * Load vocabulary from memory-mapped binary data.

  *

  * @param tok         Tokenizer

  * @param vocab_size  Number of tokens

  * @param offsets     Array of offsets into strings pool

  * @param strings     String pool containing null-terminated tokens

  * @param num_merges  Number of BPE merges

  * @param merges      Merge rules as (left, right, merged) triplets

  * @return            0 on success, -1 on error

  */

 int ck_tokenizer_load_binary(CKTokenizer *tok,

                              int vocab_size,

                              const int32_t *offsets,

                              const char *strings,

                              int num_merges,

                              const int32_t *merges);


 /**

  * Load vocabulary from memory-mapped binary data with scores and types.

  *

  * This extended version supports SPM (SentencePiece) tokenizers which require

  * token scores for Viterbi/DP encoding.

  *

  * @param tok         Tokenizer

  * @param vocab_size  Number of tokens

  * @param offsets     Array of offsets into strings pool

  * @param strings     String pool containing null-terminated tokens

  * @param scores      Array of token scores (float32), can be NULL

  * @param types       Array of token types (uint8), can be NULL

  * @param num_merges  Number of BPE merges

  * @param merges      Merge rules as (left, right, merged) triplets

  * @return            0 on success, -1 on error

  */

 int ck_tokenizer_load_binary_with_scores(CKTokenizer *tok,

                                          int vocab_size,

                                          const int32_t *offsets,

                                          const char *strings,

                                          const float *scores,

                                          const uint8_t *types,

                                          int num_merges,

                                          const int32_t *merges);


 /**

  * Load vocabulary from GGUF file.

  *

  * @param tok    Tokenizer

  * @param path   Path to GGUF file

  * @return       0 on success, -1 on error

  */

 int ck_tokenizer_load_gguf(CKTokenizer *tok, const char *path);


 /**

  * Load vocabulary from JSON file (HuggingFace format).

  *

  * @param tok    Tokenizer

  * @param path   Path to vocab.json or tokenizer.json

  * @return       0 on success, -1 on error

  */

 int ck_tokenizer_load_json(CKTokenizer *tok, const char *path);


 /**

  * Load vocabulary from text file (one token per line).

  *

  * Format: token_string [id] [score]

  * Lines starting with # are comments.

  *

  * @param tok    Tokenizer

  * @param path   Path to vocabulary file

  * @return       0 on success, -1 on error

  */

 int ck_tokenizer_load_text(CKTokenizer *tok, const char *path);


 /**

  * Load BPE merges from text file.

  *

  * Format: token1 token2 (one merge per line)

  *

  * @param tok    Tokenizer

  * @param path   Path to merges.txt

  * @return       0 on success, -1 on error

  */

 int ck_tokenizer_load_merges(CKTokenizer *tok, const char *path);


 /* ============================================================================

  * Utility Functions

  * ============================================================================ */


 /**

  * Get the tokenizer type name.

  *

  * @param tok    Tokenizer

  * @return       Type name string

  */

 CK_TOKENIZER_API const char *ck_tokenizer_type_name(const CKTokenizer *tok);


 /**

  * Check if token is special.

  *

  * @param tok    Tokenizer

  * @param id     Token ID

  * @return       true if special token

  */

 CK_TOKENIZER_API bool ck_tokenizer_is_special(const CKTokenizer *tok, int32_t id);


 /**

  * Estimate encoded token count.

  *

  * @param tok    Tokenizer

  * @param text   Input text

  * @return       Estimated number of tokens

  */

 CK_TOKENIZER_API size_t ck_tokenizer_estimate_tokens(const CKTokenizer *tok, const char *text);


 /**

  * Get last error message.

  *

  * @return       Last error message, or NULL if no error

  */

 CK_TOKENIZER_API const char *ck_tokenizer_last_error(void);


 #ifdef __cplusplus

 }

 #endif


 #endif /* CK_TOKENIZER_H */

ck_tokenizer_lookup
int32_t ck_tokenizer_lookup(const CKTokenizer *tok, const char *token, int len)
Definition: ck_tokenizer.c:227

ck_tokenizer_id_to_token
const char * ck_tokenizer_id_to_token(const CKTokenizer *tok, int32_t id)
Definition: ck_tokenizer.c:239

ck_tokenizer_free
void ck_tokenizer_free(CKTokenizer *tok)
Definition: ck_tokenizer.c:183

hash_table.h

memory_pool.h

murmurhash3.h

CKTokenizerConfig
Definition: tokenizer.h:73

CKTokenizerConfig::add_bos
bool add_bos
Definition: tokenizer.h:75

CKTokenizerConfig::unk_score
float unk_score
Definition: tokenizer.h:80

CKTokenizerConfig::treat_whitespace_as_suffix
bool treat_whitespace_as_suffix
Definition: tokenizer.h:79

CKTokenizerConfig::add_space_prefix
bool add_space_prefix
Definition: tokenizer.h:77

CKTokenizerConfig::use_trie
bool use_trie
Definition: tokenizer.h:81

CKTokenizerConfig::lowercase
bool lowercase
Definition: tokenizer.h:78

CKTokenizerConfig::type
CKTokenizerType type
Definition: tokenizer.h:74

CKTokenizerConfig::add_eos
bool add_eos
Definition: tokenizer.h:76

CKTokenizerConfig::spm_mode
CKSpmMode spm_mode
Definition: tokenizer.h:84

CKTokenizerConfig::space_prefix_detected
bool space_prefix_detected
Definition: tokenizer.h:83

CKTokenizerConfig::space_prefix_style
CKSpacePrefixStyle space_prefix_style
Definition: tokenizer.h:82

CKTokenizerHashTable
Definition: hash_table.h:29

CKTokenizerMemPool
Definition: memory_pool.h:27

CKTokenizerToken
Definition: tokenizer.h:88

CKTokenizerToken::is_special
bool is_special
Definition: tokenizer.h:91

CKTokenizerToken::id
int32_t id
Definition: tokenizer.h:89

CKTokenizerToken::score
float score
Definition: tokenizer.h:90

CKTokenizer
Definition: ck_tokenizer.h:76

CKTokenizer::bos_id
int32_t bos_id
Definition: ck_tokenizer.h:98

CKTokenizer::scores
float * scores
Definition: tokenizer.h:111

CKTokenizer::types_size
size_t types_size
Definition: tokenizer.h:114

CKTokenizer::merge_result
int32_t * merge_result
Definition: tokenizer.h:132

CKTokenizer::vocab_size
size_t vocab_size
Definition: tokenizer.h:107

CKTokenizer::byte_token_id
int32_t * byte_token_id
Definition: tokenizer.h:117

CKTokenizer::pool
CKTokenizerMemPool pool
Definition: tokenizer.h:127

CKTokenizer::unk_id
int32_t unk_id
Definition: ck_tokenizer.h:97

CKTokenizer::num_merges
int32_t num_merges
Definition: tokenizer.h:134

CKTokenizer::vocab_trie
CKTrie * vocab_trie
Definition: tokenizer.h:103

CKTokenizer::eos_id
int32_t eos_id
Definition: ck_tokenizer.h:99

CKTokenizer::merge_pairs_size
size_t merge_pairs_size
Definition: tokenizer.h:131

CKTokenizer::merge_result_size
size_t merge_result_size
Definition: tokenizer.h:133

CKTokenizer::encode_buffer
char * encode_buffer
Definition: tokenizer.h:137

CKTokenizer::merge_pairs
int32_t * merge_pairs
Definition: tokenizer.h:130

CKTokenizer::encode_buffer_size
size_t encode_buffer_size
Definition: tokenizer.h:138

CKTokenizer::vocab
CKTokenizerHashTable * vocab
Definition: tokenizer.h:100

CKTokenizer::types
uint8_t * types
Definition: tokenizer.h:113

CKTokenizer::vocab_capacity
size_t vocab_capacity
Definition: tokenizer.h:108

CKTokenizer::scores_size
size_t scores_size
Definition: tokenizer.h:112

CKTokenizer::id_to_token
char ** id_to_token
Definition: ck_tokenizer.h:86

CKTokenizer::mask_id
int32_t mask_id
Definition: tokenizer.h:124

CKTokenizer::vocab_size
int vocab_size
Definition: ck_tokenizer.h:81

CKTokenizer::config
CKTokenizerConfig config
Definition: tokenizer.h:97

CKTokenizer::pad_id
int32_t pad_id
Definition: ck_tokenizer.h:100

CKTrie
Definition: include/data_structures/tries/trie.h:34

ck_tokenizer_set_add_bos_eos
void ck_tokenizer_set_add_bos_eos(CKTokenizer *tok, bool add_bos, bool add_eos)
Definition: tokenizer.c:243

ck_tokenizer_detect_space_prefix_style
CKSpacePrefixStyle ck_tokenizer_detect_space_prefix_style(CKTokenizer *tok)
Definition: tokenizer.c:276

ck_tokenizer_set_spm_mode
void ck_tokenizer_set_spm_mode(CKTokenizer *tok, CKSpmMode spm_mode)
Definition: tokenizer.c:254

ck_tokenizer_create
CKTokenizer * ck_tokenizer_create(CKTokenizerType type)
Definition: tokenizer.c:34

ck_tokenizer_set_special_ids
void ck_tokenizer_set_special_ids(CKTokenizer *tok, int32_t unk, int32_t bos, int32_t eos, int32_t pad, int32_t mask)
Definition: tokenizer.c:234

ck_tokenizer_reset
void ck_tokenizer_reset(CKTokenizer *tok)
Definition: tokenizer.c:125

ck_tokenizer_set_use_trie
void ck_tokenizer_set_use_trie(CKTokenizer *tok, bool use_trie)
Definition: tokenizer.c:260

ck_tokenizer_set_add_space_prefix
void ck_tokenizer_set_add_space_prefix(CKTokenizer *tok, bool add_space_prefix)
Definition: tokenizer.c:249

ck_tokenizer_set_space_prefix_style
void ck_tokenizer_set_space_prefix_style(CKTokenizer *tok, CKSpacePrefixStyle style)
Definition: tokenizer.c:266

mask
int32_t int32_t int32_t int32_t int32_t mask
Definition: tokenizer.h:233

ids
const int32_t * ids
Definition: tokenizer.h:443

ck_tokenizer_create_bpe
static CKTokenizer * ck_tokenizer_create_bpe(void)
Definition: tokenizer.h:156

ck_tokenizer_load_binary_with_scores
int ck_tokenizer_load_binary_with_scores(CKTokenizer *tok, int vocab_size, const int32_t *offsets, const char *strings, const float *scores, const uint8_t *types, int num_merges, const int32_t *merges)
Definition: tokenizer.c:1252

ck_tokenizer_decode
int ck_tokenizer_decode(const CKTokenizer *tok, const int32_t *ids, int num_ids, char *text, int max_len)
Definition: ck_tokenizer.c:737

ck_tokenizer_add_token
int ck_tokenizer_add_token(CKTokenizer *tok, const char *token, int32_t id, float score)
Definition: tokenizer.c:157

CKSpacePrefixStyle
CKSpacePrefixStyle
Definition: tokenizer.h:60

CK_SPACE_PREFIX_AUTO
@ CK_SPACE_PREFIX_AUTO
Definition: tokenizer.h:61

CK_SPACE_PREFIX_SPM
@ CK_SPACE_PREFIX_SPM
Definition: tokenizer.h:63

CK_SPACE_PREFIX_GPT2
@ CK_SPACE_PREFIX_GPT2
Definition: tokenizer.h:62

num_ids
const int32_t int num_ids
Definition: tokenizer.h:444

CKTokenizerType
CKTokenizerType
Definition: tokenizer.h:53

CK_TOKENIZER_BPE
@ CK_TOKENIZER_BPE
Definition: tokenizer.h:54

CK_TOKENIZER_SPM
@ CK_TOKENIZER_SPM
Definition: tokenizer.h:56

CK_TOKENIZER_WORDPIECE
@ CK_TOKENIZER_WORDPIECE
Definition: tokenizer.h:55

ck_tokenizer_load_text
int ck_tokenizer_load_text(CKTokenizer *tok, const char *path)
Definition: tokenizer.c:1334

ck_tokenizer_load_gguf
int ck_tokenizer_load_gguf(CKTokenizer *tok, const char *path)
Definition: tokenizer.c:1332

ck_tokenizer_load_json
int ck_tokenizer_load_json(CKTokenizer *tok, const char *path)
Definition: tokenizer.c:1333

text
const char * text
Definition: tokenizer.h:563

add_eos
bool bool add_eos
Definition: tokenizer.h:242

add_space_prefix
bool add_space_prefix
Definition: tokenizer.h:252

ck_tokenizer_load_binary
int ck_tokenizer_load_binary(CKTokenizer *tok, int vocab_size, const int32_t *offsets, const char *strings, int num_merges, const int32_t *merges)
Definition: ck_tokenizer_v2.c:18

lowercase
bool lowercase
Definition: tokenizer.h:268

ck_tokenizer_create_wordpiece
static CKTokenizer * ck_tokenizer_create_wordpiece(void)
Definition: tokenizer.h:163

spm_mode
CKSpmMode spm_mode
Definition: tokenizer.h:260

ck_tokenizer_vocab_size
static size_t ck_tokenizer_vocab_size(const CKTokenizer *tok)
Definition: tokenizer.h:332

add_bos
bool add_bos
Definition: tokenizer.h:242

token
const char * token
Definition: tokenizer.h:306

score
int32_t float * score
Definition: tokenizer.h:327

CKSpmMode
CKSpmMode
Definition: tokenizer.h:67

CK_SPM_MODE_UNIGRAM
@ CK_SPM_MODE_UNIGRAM
Definition: tokenizer.h:68

CK_SPM_MODE_LLAMA
@ CK_SPM_MODE_LLAMA
Definition: tokenizer.h:69

ck_tokenizer_create_spm
static CKTokenizer * ck_tokenizer_create_spm(void)
Definition: tokenizer.h:170

unk
int32_t unk
Definition: tokenizer.h:229

ck_tokenizer_encode
int ck_tokenizer_encode(const CKTokenizer *tok, const char *text, int text_len, int32_t *ids, int max_ids)
Definition: ck_tokenizer.c:638

ck_tokenizer_encode_tokens
int ck_tokenizer_encode_tokens(const CKTokenizer *tok, const char *text, int text_len, const char **out_tokens, int max_tokens)

use_trie
bool use_trie
Definition: tokenizer.h:276

ck_tokenizer_add_merge
int ck_tokenizer_add_merge(CKTokenizer *tok, int32_t left_id, int32_t right_id, int32_t merged_id, int32_t priority)
Definition: tokenizer.c:1336

ck_tokenizer_encode_with_special
int ck_tokenizer_encode_with_special(CKTokenizer *tok, const char *text, int text_len, int32_t *ids, int max_ids, bool add_special)

ck_tokenizer_add_special_token
int ck_tokenizer_add_special_token(CKTokenizer *tok, const char *name, int32_t id)
Definition: tokenizer.c:213

ck_tokenizer_load_merges
int ck_tokenizer_load_merges(CKTokenizer *tok, const char *path)
Definition: tokenizer.c:1335

eos
int32_t int32_t int32_t eos
Definition: tokenizer.h:231

CK_TOKENIZER_API
#define CK_TOKENIZER_API
Definition: tokenizer.h:40

pad
int32_t int32_t int32_t int32_t pad
Definition: tokenizer.h:232

style
CKSpacePrefixStyle style
Definition: tokenizer.h:287

bos
int32_t int32_t bos
Definition: tokenizer.h:230

out_len
const int32_t int int * out_len
Definition: tokenizer.h:445

num_merges
int const int32_t const char int num_merges
Definition: true_bpe.h:188

strings
int const int32_t const char * strings
Definition: true_bpe.h:187

merges
int const int32_t const char int const int32_t * merges
Definition: true_bpe.h:189

priority
int32_t int32_t int32_t int32_t priority
Definition: true_bpe.h:115

max_len
const int32_t int char int max_len
Definition: true_bpe.h:280

left_id
int32_t left_id
Definition: true_bpe.h:112

text_len
const char int text_len
Definition: true_bpe.h:262

vocab_size
int vocab_size
Definition: true_bpe.h:185

right_id
int32_t int32_t right_id
Definition: true_bpe.h:113

offsets
int const int32_t * offsets
Definition: true_bpe.h:186

merged_id
int32_t int32_t int32_t merged_id
Definition: true_bpe.h:114

max_ids
const char int int32_t int max_ids
Definition: true_bpe.h:264

utf8.h