【本文来自《“Token”中文名定了:词元》评论区,标题为小编添加】

大语言模型的词元(Token),这里面隐藏着一些秘籍。

大语言模型处理的过程实际上就是对字词的计算,每个词汇都被计算机标记为一个数值,然后再进行带向量的运算。

中文词汇的词元(Token)计算数值跟英文的完全不一样,所以,一个词汇的Token数值在不同的大模型中出现的数值也是不一样的。前一阵子美国的一个应用偷偷用了我们的一个开源模型,按照开源协议要求,他应该公开注释,但是他们没有做。后来被发现,就是在某些中文词汇的Token数值上被发现的,很丢人、尴尬地加上了注释,找了个理由说“忘了”,海盗精神“闪耀光芒”。

还有一个就是中文大模型对中文的处理上的优势也体现在词元(Token)上,比如一个词“大模型”,中文大语言模型对这个词的处理,把它识别成一个词汇,那么词元(Token)就可能就是一个数值。但是英文的大语言模型就会将这个词逐字识别,分拆成好几个词元(Token)数值,中文的大语言模型就节省了很多处理的算力。

另外,按已有惯例,1个token≈1-1.8个汉字,而在英文文本中,1个token≈3-4个字母。但是,英文一个单词可能就会很长,而中文词汇的知识密度是最大的。所以,这就节省了用户的词元(Token)消耗量。