当前位置: 首页 > news >正文

律师网站建设推广给我一个网站图片

律师网站建设推广,给我一个网站图片,苏州园区公积金管理中心官网,杭州第三方推广公司继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内…

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。

1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内容爬取自Reddit平台的出站网络链接对应的网站,每个链接要至少有三个赞,以保障数据质量。

2. 但是WebText数据集不公开,仅OpenAI自己能使用,于是OpenWebText数据集(OpenWebText数据集)应运而生,该数据集搜集超过23亿个链接,大于WebText数据集。

3. GPT3的训练使用了Common Crawl、WebText2、维基百科、电子书也以及一些多种来源的网络文本、新闻网站数据集等(纽约时报的新闻大概也被爬取了,所以有了后来的诉讼),大概570GB。

4. 以下是llama开源模型早期版本的预训练数据集来源,来源于多个数据集,大概4.8TB,比GPT3多了Github、ArXiv(开放的学术论文分享平台,Kaggle上也有它的数据集)还有StackExchange。

5. 写到这里可以说明为什么说互联网的数据没有被耗尽:

  •  许多网站的数据是不可爬取的,有研究认为类似Twitter、Faceboo等这种网站可爬取的数据只占20%左右
  • 封闭APP的数据不可爬取,以中文互联网为例,现在APP的数据要远大于PC互联网数据了,最典型比如微信、小红书等这些APP的数据非常多、非常有价值,但是无法获取
  • 互联网数据在实时更新,不断有新的数据进来

6. 进一步,企业的私有数据没有被用来训练。

7. 再进一步,物理世界的许多数据并没有被捕获,比如线下大会的视频如果没有传到网络就无法被纳入训练集。智能汽车将会提供超大量的数据,未来AR眼镜如果能普及将会是一个更大的数据来源。

8. 所以预训练用的数据集其实还可以优化,还有以下思路可以参考:

  • 预训练的数据集来源优化,获取更高质量的数据集
  • 模型训练的时候为了节省资源会对原数据进行压缩降维,如果数据集高质量点但小点,可以给减小压缩空间

参考来源:
大语言模型(LLM)预训练数据集调研分析

大模型训练数据集分析:多样性和挑战-CSDN博客

http://www.yayakq.cn/news/549695/

相关文章:

  • 现货黄金什么网站可以做直播校园二手市场网站开发的意义
  • 网站卡密代理怎么做wordpress短码
  • 有没有一起做游戏棋牌网站的wordpress企业类模板
  • 自己如何建设一个彩票网站网址推广主要做些什么内容
  • 嘉兴网站托管iphone开发网站
  • 海门市规划建设局网站学习网站建设0学起
  • 做外贸的如何上国外网站自定义图片 wordpress
  • iis安装好了 网站该怎么做seo优化方案策划书
  • 网站做多少屏合适1卡二卡三卡四卡精品hd
  • 建一个网站需要什么流程株洲seo优化
  • 网站建设织梦源码wordpress修改侧边栏
  • 建网站和软件需要什么可以做婚礼视频的网站有哪些
  • 建设部网站查询wordpress 页面显示分类文章列表
  • 深圳网站搭建wordpress新增标题
  • 网站源码小千个人网怎样制作灯笼
  • 如何建立一个网站收会员费义乌做网站的
  • 设计素材网站线上排名好的成都网站建设
  • 株洲做网站建设兰州做网站 东方商易
  • 廊坊网站备案东莞通网上营业厅
  • 电子商务网站建设软件选择个人网站建设价格表
  • seo顾问服务公司站长wordpress获取页面tag
  • 杭州设计企业网站高端公司电子商务网站建设定义
  • 库存网站建设公司装饰公司网站建设
  • 网站建设 收费明细高端网站制作乐是
  • 做简历网站高端大气的网站首页
  • 怎样健建设一个有利于优化的网站如何做网站答题领红包链接
  • 网站排名诊断产品单页网站
  • 建站 哪个网站系统好用做网站虚拟服务器
  • 做网站采集担保公司发展规划
  • 有关毕业设计的网站北京百姓网免费发布信息