当前位置: 首页 > news >正文

青岛做外贸网站建设做商城网站设计

青岛做外贸网站建设,做商城网站设计,影视会员网站怎么建设,请别人做网站大概要多少钱karpathy/nanoGPT: The simplest, fastest repository for training/finetuning medium-sized GPTs. (github.com) 原有模型使用的莎士比亚的戏剧数据集, 如果需要一个写唐诗机器人,需要使用唐诗的文本数据, 一个不错的唐诗,宋词数据的下载…

karpathy/nanoGPT: The simplest, fastest repository for training/finetuning medium-sized GPTs. (github.com)

原有模型使用的莎士比亚的戏剧数据集, 如果需要一个写唐诗机器人,需要使用唐诗的文本数据,

一个不错的唐诗,宋词数据的下载资源地址:

https://github.com/chinese-poet

这个数据集里面包含搜集到的唐诗,宋词,元曲小说文本数据。

一 数据准备

1. 先下载全唐诗数据,保存到 data/poemtext/tang-poetry下

2. 进行数据的预处理

format-data.py

# -*- coding: utf-8 -*-
import glob
import json
datas_json=glob.glob("./tang-poetry/poet*.json") #1匹配所有唐诗json文件for data_json in datas_json[:]: #2处理匹配的每一个文件with open(data_json,"r",encoding="utf-8") as f:ts_data =json.load(f)for each_ts in ts_data[:]: #3处理文件中每段数据,只要五言诗和2句的paragraphs_list =each_ts["paragraphs"]if len(paragraphs_list) == 2 and len(paragraphs_list[0])==12 and len(paragraphs_list[1]) == 12:with open("tang_poet.txt","a",encoding="utf-8") as f2:f2.write("".join(paragraphs_list))f2.write("\n")f =open("tang_poet.txt","r",encoding="utf-8")
print(len(f.readlines()))

prepare.py

import os
import requests
import tiktoken
import numpy as np# download the tiny shakespeare dataset
input_file_path = os.path.join(os.path.dirname(__file__), 'tang_poet.txt')
with open(input_file_path, 'r') as f:data = f.read()
n = len(data)
train_data = data[:int(n*0.9)]
val_data = data[int(n*0.9):]# encode with tiktoken gpt2 bpe
enc = tiktoken.get_encoding("gpt2")
train_ids = enc.encode_ordinary(train_data)
val_ids = enc.encode_ordinary(val_data)
print(f"train has {len(train_ids):,} tokens")
print(f"val has {len(val_ids):,} tokens")# export to bin files
train_ids = np.array(train_ids, dtype=np.uint16)
val_ids = np.array(val_ids, dtype=np.uint16)
train_ids.tofile(os.path.join(os.path.dirname(__file__), 'train.bin'))
val_ids.tofile(os.path.join(os.path.dirname(__file__), 'val.bin'))

二 配置文件准备

参考   train_shakespeare_char.py

三 开始训练

参考   train_shakespeare_char.py

# mac pro m1机器上
python3 train.py config/train_poemtext_char.py --device=mps --compile=False --eval_iters=20 --log_interval=1 --block_size=64 --batch_size=12 --n_layer=4 --n_head=4 --n_embd=128 --max_iters=1000 --lr_decay_iters=1000 --dropout=0.0

四 生成唐诗

python3 sample.py --out_dir=out-poemtext-char --device=mps

参考:

迷你版ChatGPT开源,教你怎么用nanoGPT训练一个写小说的AI机器人! - 知乎 (zhihu.com)

Gpt进阶(二): 以古诗集为例,训练一个自己的古诗词gpt模型 - 知乎 (zhihu.com)

http://www.yayakq.cn/news/395532/

相关文章:

  • 个人网站设计论文模板wordpress二级目录创建
  • 免费网站空间免费主机页面升级自动跳转
  • 双城网站建设哪家好濮阳团购网站建设
  • 怎么免费搭建属于自己的网站站内搜索工具
  • 怎样做编辑发到网站h5制作官网登录
  • 可以做问卷的网站有哪些办公家具
  • 企业网站建设后期维护费用电商运营岗位职责
  • 自己做图片上传网站仙居做网站公司
  • 科技文化网站建设方案网站的meta标签优化
  • 网站建设与管理用什么软件企业邮箱注册域名是什么
  • 永康市住房和城乡建设局网站做电影网站解决版权问题
  • 可以做电商题目的网站做网站的外包需要分享客户信息
  • 手机网站效果图做多大的实时热点新闻及评论
  • 宁夏企业网站建设企业管理培训课程名称
  • 贵州城乡建设厅施工员报名网站seo建设网站
  • 网站建设与运营财务报表建设网站需要用到哪些软件
  • 网络培训的网站建设联通做网站
  • 给艺术家做网站的工作苏州区建设局网站
  • 开封网站建设-中企动力温州营销推广公司
  • 建站排行榜音乐制作软件
  • 网站在哪里搜索江门网站建设推荐
  • 淘宝网站建设基本流程西宁高端企业网站建设
  • 网站内链怎么做更好养老院网站建设
  • 企业官方网站模板下载wordpress查版本
  • 可信赖的广州做网站上海网站建设 网站开发
  • dede 购物网站wordpress 开启手机版
  • 怎么做电影网站吗廊坊首页霸屏排名优化
  • 大连手机自适应网站建设报价个人备案网站类型
  • 安徽网站设计流程为什么我有的网站打不开
  • 自己去注册公司需要花多少钱山西seo基础教程