当前位置: 首页 > news >正文

自适应网站三套代码dtc建站服务

自适应网站三套代码,dtc建站服务,wordpress固定链接优化,模板之家网站BertTokenizerFast类 1、特点 速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。 功能一致:与BertTokenizer的API完全兼容,可以直接替换使用…

BertTokenizerFast类

1、特点

        速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。

        功能一致:与BertTokenizer的API完全兼容,可以直接替换使用。支持所有的BERT变体。

        额外功能:提供更丰富的后处理选项(如截断、填充的精细控制)。支持直接返回token_type_ids、attention_mask等张量。

2、基本用法

from transformers import BertTokenizerFast# 初始化分词器,以chinese-bert-wwm模型为例
tokenizer = BertTokenizerFast.from_pretrained('chinese-bert-wwm')# 单条文本分词
text = ‘你好,明天!’
encoded_input = tokenizer(text, return_tensors='pt')  # 返回pytorch张量
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])
}
"""
# 批量文本分词
texts = ['明天,你好!', '你好,明天!']
batch_encoded = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102], [101, 872, 1962, 8024, 3209, 1921, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]])
}
"""

3、关键参数

参数名作用
padding=True自动填充到批次中最长序列长度
trunction=True自动截断到模型最大长度(512)
return_tensors='pt'返回pytorch张量(可选"tf"为TensorFlow或"np"为numpy)
max_length=128显式指定最大长度
add_special_tokens是否添加[cls]和[sep],默认为True
return_offsets_mapping返回每个token在原始文本中的字符集起始和结束位置
skip_special_tokens在解码(将Token ID转回文本)时跳过特殊token(如[CLS]、[SEP]、[PAD]等),默认值为False,设为True后输出更干净的文本

 4、自定义tokens

tokenizer.add_tokens(['亚马逊', '速卖通'])  # 添加新的token
model.resize_token_embeddings(len(tokenizer))  # 调整模型嵌入层

5、偏移量映射(用于命名实体识别任务)

encoded_input = tokenizer(text, return_offsets_mapping=True)
print(encoded_input["offset_mapping"])  # 输出每个token在原文中的位置

6、快速解码

decoded_text = tokenizer.decode(encoded_input["input_ids"][0], skip_special_tokens=True)
http://www.yayakq.cn/news/952354/

相关文章:

  • 中山模板建站代理eyoucms官网
  • 网站优化的价值上海官网seo
  • 辽宁营商建设局网站网页怎么制作链接
  • 响应式网站 图片处理网站编辑兼职
  • 西安 网站建设 费用深圳市住房与建设局网站
  • 传媒公司网站网站模版上线需要什么意思
  • 岛国萝莉做的电影网站室内装修网站
  • 网站伪静态全站伪静态国内网站建设推荐
  • 深圳画册设计网站成都公司网页制作电话
  • 李沧做网站公司好的公众号
  • 江苏广兴建设集团网站安丘市住房和城乡建设局网站
  • 微信公众号与网站绑定企业所得税会计分录怎么做
  • 网站制作设计发展前景广州免费技能培训班
  • 东四网站建设盐城专业做网站较好的公司
  • 网站建设的任务规划wordpress制作rss
  • 手机企业网站建设开发wordpress禁用google
  • 做网站时如何建立栅格郑州工作
  • 网站建设系统多少钱成立公司的好处
  • 做网站需完成的软件如何看网站排名
  • 培训网站模板【网站建设
  • 义乌市网站建设代理装修网站排名前十
  • 保险资料网站有哪些广州市官方网站
  • 自助建站是什么意思王战胜局长
  • 动漫做视频在线观看网站余姚做网站的公司
  • 买网站送域名怎么自己编码做网站
  • 网站做业务赚钱吗网站代码管理
  • 网站建设功庆阳市住房和城乡建设局网站
  • 网站建设的前期投入杭州工业设计
  • 合肥模板网站建设收费怎样才能做一个优质的外贸网站
  • 图片演示dw做网站网站建设重点