问题
 
最近遇到使用transformers的AutoTokenizer的时候,修改vocab.txt中的[unused1]依然无法识别相应的new token。
 
实例:
 我将[unused1]修改为了[TRI],句子中的[TRI]并没有被整体识别,而是识别为了[,T,RI,]。这明显是有问题的。
 
解决
 
若去掉[TRI]的方括号,问题就消失了。
 所以可以认定,Bert对带有方括号的token统一按special token处理,所以要使用
 
tokenizer.add_special_tokens({})
 
来添加此类token。