合肥龙岗医院网站建设维护网站建设空间出租
Transformer 模型中常见的特殊符号
通过代码一起理解一下 Transformer 模型中常见的特殊符号,
示例代码,
special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}
 
这段代码是定义了一个字典special_tokens,包含了以下几个关键字的token:
unk_token : 未知词token,用于替换不在词汇表中的单词。
 sep_token: 分隔符token,用于分隔句子。
 pad_token: 填充token,用于将序列padding到同一长度。
 cls_token: 分类token,用于分类任务。
 mask_token: 掩码token,用于掩码一些词语。
 那么这些token的具体含义和作用是:
[UNK] 表示未登录词,也就是不在模型词汇表中的单词,会被替换成这个token。
 [SEP] 用于分割句子,比如分隔两个句子。
 [PAD] 是填充token,会用于把句子pad到相同长度。
 [CLS] 是分类token,用于分类任务,会添加到句子开头,通过这个token的表示来进行分类。
 [MASK] 是掩码token,用于掩码一些词,然后让模型预测被掩码的词。
 这些都是 Transformer 模型中常见的特殊符号,在做NLP任务时需要加入这些特殊token,以表示一些特定的语义。
完结!
