minpeter
/

webtext-1k-pico

Text Generation

text-generation-inference

Model card Files Files and versions

webtext-1k-pico / tokenizer_config.json

minpeter's picture

Upload tokenizer

63ff6c6 verified 10 months ago

history blame contribute delete

2.42 kB

	{
	"add_bos_token": false,
	"add_prefix_space": false,
	"added_tokens_decoder": {
	"31989": {
	"content": "<\|endoftext\|>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"31990": {
	"content": "<\|im_start\|>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"31991": {
	"content": "<\|im_end\|>",
	"lstrip": false,
	"normalized": true,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"31992": {
	"content": "<tool_call>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"31993": {
	"content": "</tool_call>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"31994": {
	"content": "<think>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"31995": {
	"content": "</think>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": false
	},
	"31996": {
	"content": "<\|unused_special_token_0\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"31997": {
	"content": "<\|unused_special_token_1\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"31998": {
	"content": "<\|unused_special_token_2\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	},
	"31999": {
	"content": "<\|unused_special_token_3\|>",
	"lstrip": false,
	"normalized": false,
	"rstrip": false,
	"single_word": false,
	"special": true
	}
	},
	"bos_token": null,
	"clean_up_tokenization_spaces": false,
	"eos_token": "<\|endoftext\|>",
	"extra_special_tokens": {},
	"model_max_length": 1000000000000000019884624838656,
	"pad_token": "<\|endoftext\|>",
	"split_special_tokens": false,
	"tokenizer_class": "PreTrainedTokenizerFast",
	"unk_token": "<\|endoftext\|>"
	}