建网站程序工具,下载软件的应用app,电商平台建设内容,网站备案后证书目录 问题解决方案 问题
使用peft用lora微调blip2时用到了一个足球数据集#xff0c;如下#xff1a; 原始代码如下
dataset load_dataset(ybelkada/football-dataset, splittrain)然而这需要梯子才能下载#xff0c;服务器较难用VPN所以使用au… 目录 问题解决方案 问题
使用peft用lora微调blip2时用到了一个足球数据集如下 原始代码如下
dataset load_dataset(ybelkada/football-dataset, splittrain)然而这需要梯子才能下载服务器较难用VPN所以使用autodl的学术加速然而下载后是这样的 下载后和源数据不一样服务器端代码无法直接加载autodl解析的数据并且直接从网页下载源数据集不能像预训练模型那样直接加载。
解决方案
将源数据下载到本地并执行下面一行代码
dataset load_dataset(parquet, data_files/home/mayunchuan/.cache/huggingface/datasets/ybelkada/football-dataset/data/train-00000-of-00001-fc7c825a21687306.parquet,splittrain)即可加载注意datasets的版本低版本的无法加载本地数据我用的datasets版本是3.1.0解析的数据如下
加载后的数据可以保存到disk上:
dataset.save_to_disk(your path)下次可以直接调用
# 从磁盘加载数据集
dataset load_from_disk(dataset_path)也可以直接加载解析的数据
train_dataset_path /home/mayunchuan/.cache/huggingface/datasets/parquet/default-d3b5e02210aa68e5/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec
dataset load_dataset(train_dataset_path, splittrain)另外加不加split都不会影响数据集的解析如果不加split‘train’: 加了: