当前位置: 首页 > news >正文

如何自己做电影网站如何建立网站平台

如何自己做电影网站,如何建立网站平台,财经直播网站建设,雄安优秀网站建设BertTokenizerFast类 1、特点 速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。 功能一致:与BertTokenizer的API完全兼容,可以直接替换使用…

BertTokenizerFast类

1、特点

        速度快:底层使用Rust实现,比纯python的BertTokenizer快得多(尤其是批量处理的时候),且支持多线程使用。

        功能一致:与BertTokenizer的API完全兼容,可以直接替换使用。支持所有的BERT变体。

        额外功能:提供更丰富的后处理选项(如截断、填充的精细控制)。支持直接返回token_type_ids、attention_mask等张量。

2、基本用法

from transformers import BertTokenizerFast# 初始化分词器,以chinese-bert-wwm模型为例
tokenizer = BertTokenizerFast.from_pretrained('chinese-bert-wwm')# 单条文本分词
text = ‘你好,明天!’
encoded_input = tokenizer(text, return_tensors='pt')  # 返回pytorch张量
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])
}
"""
# 批量文本分词
texts = ['明天,你好!', '你好,明天!']
batch_encoded = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')
"""
输出结果:
{'input_ids': tensor([[101, 3209, 1921, 8024, 872, 1962, 8013, 102], [101, 872, 1962, 8024, 3209, 1921, 8013, 102]]),'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]]),'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]])
}
"""

3、关键参数

参数名作用
padding=True自动填充到批次中最长序列长度
trunction=True自动截断到模型最大长度(512)
return_tensors='pt'返回pytorch张量(可选"tf"为TensorFlow或"np"为numpy)
max_length=128显式指定最大长度
add_special_tokens是否添加[cls]和[sep],默认为True
return_offsets_mapping返回每个token在原始文本中的字符集起始和结束位置
skip_special_tokens在解码(将Token ID转回文本)时跳过特殊token(如[CLS]、[SEP]、[PAD]等),默认值为False,设为True后输出更干净的文本

 4、自定义tokens

tokenizer.add_tokens(['亚马逊', '速卖通'])  # 添加新的token
model.resize_token_embeddings(len(tokenizer))  # 调整模型嵌入层

5、偏移量映射(用于命名实体识别任务)

encoded_input = tokenizer(text, return_offsets_mapping=True)
print(encoded_input["offset_mapping"])  # 输出每个token在原文中的位置

6、快速解码

decoded_text = tokenizer.decode(encoded_input["input_ids"][0], skip_special_tokens=True)
http://www.yayakq.cn/news/241607/

相关文章:

  • 做资源共享网站最新版的wordpress怎么添加特征图
  • 城阳网站开发公司电话wordpress登入修改
  • 帮人做网站的推广网络空间测绘
  • 电商网站搭建流程it运维工程师
  • 西安英文网站建设专门做家具网站
  • 文学写作网站安徽省建设厅网站人员管理
  • 做网站的上海公司有哪些内部网页制作
  • 盐城市住房和城乡建设局门户网站wordpress编辑框
  • 门户类型网站有哪些关键路径
  • 网站经常修改好不好端子东莞网站建设
  • 做渔家乐推广的有哪些好网站应用宝aso优化
  • app网站怎么下载企业logo标志设计免费
  • 自己电脑怎么做网站服务器制作app开发制作
  • 微网站设计与开发是什么网站抽奖模块怎么做
  • 做资源网站需要什么dede网站栏目管理空白
  • 任县网站建设公司网站或站点的第一个网页
  • 宁波网站推广优化公司电话珠海论坛网
  • 门户网站开发难点iis6.1配置网站
  • 网站功能详细设计江苏园博园建设开发有限公司网站
  • 沈阳做网站有名公司网络营销的渠道有哪些
  • 低代码建站下载建行手机银行官方正式版
  • 自助业务网站系统dede企业网站
  • 厚街响应式网站设计dede网站建设很卡
  • 成华区微信网站建设深圳网站建设公司专业
  • 保定网站制作策划网络购物系统
  • 网站名称和备案名称不一样双鸭山建设局网站
  • 企业网站建设代理商网站怎么做域名
  • 网站域名需icp备案wap网页游戏轮回ol
  • 响应式网站 尺寸wordpress 导入数据
  • 佛山网站制作维护哪里有建设网站