中文大模型对中文的处理上的优势也体现在词元（Token）上,中文模块

【本文来自《“Token”中文名定了：词元》评论区，标题为小编添加】

大语言模型的词元（Token），这里面隐藏着一些秘籍。

大语言模型处理的过程实际上就是对字词的计算，每个词汇都被计算机标记为一个数值，然后再进行带向量的运算。

中文词汇的词元（Token）计算数值跟英文的完全不一样，所以，一个词汇的Token数值在不同的大模型中出现的数值也是不一样的。前一阵子美国的一个应用偷偷用了我们的一个开源模型，按照开源协议要求，他应该公开注释，但是他们没有做。后来被发现，就是在某些中文词汇的Token数值上被发现的，很丢人、尴尬地加上了注释，找了个理由说“忘了”，海盗精神“闪耀光芒”。

还有一个就是中文大模型对中文的处理上的优势也体现在词元（Token）上，比如一个词“大模型”，中文大语言模型对这个词的处理，把它识别成一个词汇，那么词元（Token）就可能就是一个数值。但是英文的大语言模型就会将这个词逐字识别，分拆成好几个词元（Token）数值，中文的大语言模型就节省了很多处理的算力。

另外，按已有惯例，1个token≈1-1.8个汉字，而在英文文本中，1个token≈3-4个字母。但是，英文一个单词可能就会很长，而中文词汇的知识密度是最大的。所以，这就节省了用户的词元（Token）消耗量。