当前位置：首页 > news >正文

建设校园门户网站理由wordpress 内容主题

news 2025/10/2 5:40:42

建设校园门户网站理由,wordpress 内容主题,wordpress程序迁移,万盛网站建设公司背景： 我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。训练一个合适的tokenizer是训练大模型的基础，我们既…

背景：

我们在用chatGPT或者SD的时候，发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多，为什么呢？这其中就有一个叫做tokenizer的东西在作怪。

训练一个合适的tokenizer是训练大模型的基础，我们既可以从头开始训练一个全新的tokenizer，也可以利用旧的tokenizer训练出一个新的来，今天就让我们看看如何来以旧换新。

第一步：数据准备

不管是训练大模型，还是训练tokenizer，首先都需要我们准备数据集：

from datasets import load_dataset
#加载数据集
raw_datasets = load_dataset("code_search_net", "python")#写一个迭代函数，分配加载数据，防止数据集太大导致内存溢出
def get_training_corpus():return (raw_datasets["train"][i : i + 1000]["whole_func_string"]for i in range(0, len(raw_datasets["train"]), 1000))training_corpus = get_training_corpus()

第二步：训练

#加载旧的tokenizer
old_tokenizer = AutoTokenizer.from_pretrained("gpt2")
#进行训练
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 52000)

第三步：保存

tokenizer.save_pretrained("code-search-net-tokenizer")

第四步：使用

tokenizer = AutoTokenizer.from_pretrained("huggingface-course/code-search-net-tokenizer")

总结：

1、利用AutoTokenizer.train_new_from_iterator()可以很轻松的使用我们自己的数据集来根据旧的tokenizer来训练出一个全新的tokenizer

2、如果我们需要的语言中没有可用的大语言模型，或者我们要预测的数据集与我们选择的大语言模型训练的数据集非常不同，我们就需要使用适合我们的数据的tokenizer从头开始重新训练模型。

查看全文

http://www.yayakq.cn/news/980857/

唐山公司做网站国外WordPress主题速度慢

正规抖音代运营公司排名seo诊断报告示例

网站内容方案大学精神文明建设专题网站

网站主机选择与优化做钓鱼网站违法

订制网站建设wordpress 文章id 链接

电子商务网站建设和管理网站建设的技术支持

顶尖手机网站建设厦门自助建站

建设网站的价格是多少怎么帮公司做网站建设

响应式网站开发要注意哪些网络营销策划推广方案

网站维护平台企业电话查询

微网站免费建站系统asp.net使用wordpress

北京做网站建设公司排名建设银行网站怎么注销网银

北京网站推广优化公司个人卖货平台

电影下载网站如何做wordpress增加边栏

惠州网站建设制作价格买空间送网站模板

青岛网站制作百家号面包店网站建设规划书

找个做游戏的视频网站微信网站建设定制

现货黄金什么网站可以做直播本地化吃喝玩乐平台网站可以做吗

网站后台登陆模板个人可以做企业网站

理财网站如何做推广方案wordpress自动分享插件下载

常平镇网站建设wordpress站点描述

保定专业网站建设公司厦门孚珀科技网站开发

网商网站怎么做怎么做电商网站推广

企业手机版网站wordpress页面怎么跳转

建设酒店网站ppt建站中心

郑州网站报价网站服务理念

相关文章：