当前位置: 首页 > news >正文

网站开发语言包括哪些光明网

网站开发语言包括哪些,光明网,婚庆 网站模板,汕头网络推广电话文章目录 1. 524MB中文维基百科语料(需要下载的数据集)2. 下载 hugging face 网站上的数据集3. 读取 .arrow 文件报错代码4. 纠正后代码 1. 524MB中文维基百科语料(需要下载的数据集) 2. 下载 hugging face 网站上的数据集 要将H…

文章目录

    • 1. 524MB中文维基百科语料(需要下载的数据集)
    • 2. 下载 hugging face 网站上的数据集
    • 3. 读取 .arrow 文件报错代码
    • 4. 纠正后代码

1. 524MB中文维基百科语料(需要下载的数据集)

在这里插入图片描述

2. 下载 hugging face 网站上的数据集

要将Hugging Face网站上的数据集下载到本地,可以使用Hugging Face提供的Python库 datasets。以下是下载数据集的基本步骤:

  1. 确保你已经安装了 datasets 库。你可以使用以下命令安装它:
pip install datasets
  1. 导入 datasets 库:
from datasets import load_dataset
  1. 使用 load_dataset 函数加载你感兴趣的数据集。例如,如果你想下载上面网页的数据集,你可以这样做:
dataset = load_dataset('pleisto/wikipedia-cn-20230720-filtered')
  1. 下载完成后,你可以指定一个本地目录来保存数据集文件。可以使用以下代码来指定保存路径:
dataset.save_to_disk(r'E:\DL\CSDN-blog\pyqt5_ui')

请将 括号中的字符串替换为你想要保存数据集文件的实际目录。这样,你就可以将Hugging Face网站上的数据集下载到本地指定的目录中了。

请注意,某些数据集可能需要进行身份验证或同意使用条款才能下载。确保你遵守数据集提供者的规定和许可要求。

  1. 下载后的结果

在这里插入图片描述

3. 读取 .arrow 文件报错代码

import pyarrow as pa# 读取.arrow文件
table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()
print('打印数据:\n', table)

报错输出


C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
Traceback (most recent call last):File "E:/DL/CSDN-blog/pyqt5_ui/gen_data.py", line 8, in <module>table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()File "C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py", line 236, in open_fileoptions=options, memory_pool=memory_pool)File "C:\ProgramData\Anaconda3\lib\site-packages\pyarrow\ipc.py", line 111, in __init__options=options, memory_pool=memory_pool)File "pyarrow\ipc.pxi", line 942, in pyarrow.lib._RecordBatchFileReader._openFile "pyarrow\error.pxi", line 144, in pyarrow.lib.pyarrow_internal_check_statusFile "pyarrow\error.pxi", line 100, in pyarrow.lib.check_status
pyarrow.lib.ArrowInvalid: Not an Arrow file

4. 纠正后代码

参考链接: Python : Arrow、Pyarrow库、以及与Julia互读

import pyarrow as pa
import json
# from datasets import load_dataset
# dataset = load_dataset('pleisto/wikipedia-cn-20230720-filtered')
# dataset.save_to_disk(r'E:\DL\CSDN-blog\pyqt5_ui')# 读取.arrow文件
# table = pa.ipc.open_file(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow').read_pandas()
# 可以读出julia对应的test.arrow文件
def read_arrow_to_df_julia_ok(path):with open(path,"rb") as f:r = pa.ipc.RecordBatchStreamReader(f)df = r.read_pandas()return df
table = read_arrow_to_df_julia_ok(r'E:\DL\CSDN-blog\pyqt5_ui\train\data-00000-of-00002.arrow')
# 打印数据
print('打印数据:\n', table)

正确结果输出


C:\ProgramData\Anaconda3\python.exe E:/DL/CSDN-blog/pyqt5_ui/gen_data.py
打印数据:source                                         completion
0       wikipedia.zh2307  昭通机场(ZPZT)是位于中国云南昭通的民用机场,始建于1935年,19603月开通往返航...
1       wikipedia.zh2307  我的英雄学院:英雄新世纪\n《我的英雄学院剧场版:英雄新世纪》(仆のヒーローアカデミア TH...
2       wikipedia.zh2307  黄大仙文化公园(Wong Tai Sin Culture Park)是香港一个公园,位于九龙...
3       wikipedia.zh2307  佐洛奇夫(Zolochiv),或按俄语译为佐洛乔夫(Золочев),是乌克兰西部利沃夫州佐...
4       wikipedia.zh2307  陈准,字道基,颍川郡许昌(今河南许昌)人。西晋官员。官至太尉。出身颍川陈氏,青州刺史陈佐之子...
...                  ...                                                ...
127269  wikipedia.zh2307  五个为什么(英文:5 Whys),又称为“五个为何”、“五问”或“五问法”,是一种提出问题的...
127270  wikipedia.zh2307  热凝胶多糖,又名可得然胶、卡德兰胶,是一种β-1,3-葡聚糖,是由葡萄糖组合而成的高分子聚合...
127271  wikipedia.zh2307  尤宁县 (阿肯色州)\n尤宁县(Union County)是美国阿肯色州南部的一个县,南邻路...
127272  wikipedia.zh2307  超粒方,本名邱奕淳,台湾百万订阅YouTuber,国立交通大学(今国立阳明交通大学)外文系肄...
127273  wikipedia.zh2307  《切尔诺贝利·禁区》是由“SineLab Production”(第1季)和RatPack ...[127274 rows x 2 columns]Process finished with exit code 0
http://www.yayakq.cn/news/103542/

相关文章:

  • 做网站需要先搞目录么山东省交通厅建设网站
  • 那间公司做网站好做一个网站链接怎么做
  • 包装袋设计网站推荐wordpress表格前缀
  • 重庆门户网站开发报价局强化网站建设和管理
  • wordpress网站二次开发3g门户 手机上网第一门户
  • 商务网站建设步骤网站开发的三个流程
  • 免费网站模板的制作方法最新网络推广方法
  • 娱乐网站设计SEO网站建设总做总结
  • 做网站维护学什么编程语言Wordpress 搜索热词
  • wdcp网站备份在东营怎么建网站
  • 网站建设实践报告3000字怎么样建设网站
  • 怎么做淘宝联盟网站推广常州企业网站建设
  • 免费响应式网站模板千牛网页版登录入口
  • 网站弹出网站 备案 注销 影响
  • 个人怎么建立公众号seo推广优化公司哪家好
  • 个人网站设计与开发营销网络图
  • 毕节市城乡住房建设网站设计类招聘网站
  • 网站的开发方法有哪些做业务在那几个网站上找客户端
  • 化妆品网站建设目的网站分析表
  • 郓城网站制作公司注册流程步骤
  • 网站的备案在哪备案吗手机商城和实体的价格一样吗
  • 网站建设的设计方案和实施计划设计公司装修图
  • 新品发布会方案丹东seo推广优化报价
  • 网站logo源码乐陵seo优化信
  • 怎么推广网站孙俪做的网站广告
  • 设计个网站多少钱做网站网页尺寸是多少钱
  • 广州网站建设推广公司哪家好网站建设前景分析
  • wordpress 电商插件电脑网络优化软件
  • 万网网站如何建设微信网站开发流程图
  • 什么网站可以做兼职设计湖南智慧住建云官网