当前位置: 首页 > news >正文

外文网站搭建公司点击图片跳转到网站怎么做链接

外文网站搭建公司,点击图片跳转到网站怎么做链接,重庆网站制作托管,使用ai做网站设计GPT 不是适用于某一门语言的大型语言模型,它适用于几乎所有流行的自然语言。所以 GPT 的 token 需要 兼容 几乎人类的所有自然语言,那意味着 GPT 有一个非常全的 token 词汇表,它能表达出所有人类的自然语言。如何实现这个目的呢?…

GPT 不是适用于某一门语言的大型语言模型,它适用于几乎所有流行的自然语言。所以 GPT 的 token 需要 兼容 几乎人类的所有自然语言,那意味着 GPT 有一个非常全的 token 词汇表,它能表达出所有人类的自然语言。如何实现这个目的呢?

答案是通过 unicode 编码。

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

以下的网址可以计算一个语料的tokens数目:

https://platform.openai.com/tokenizericon-default.png?t=N7T8https://platform.openai.com/tokenizer

有两个问题:

  • 汉字是怎么编码的?
  • 编码和模型是否相关?

虽然 GPT-3.5 的代码和模型权重并未开源,但是 tokenizer 部分是开源到 GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.tiktoken is a fast BPE tokeniser for use with OpenAI's models. - GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI's models.icon-default.png?t=N7T8https://github.com/openai/tiktoken 的,这是一个  BPE(Byte-Pair Encoding tokenization)方法的 tokenizer。

关于第一个问题,ChatGPT 是一个多语言模型,因此编码的问题不局限于汉字。tiktoken 的词表绝大多数是英文子词,并包含少量 unicode token 和表示字节的 token,以 UTF-8 的形式表示多语言。

关于第二个问题,不同的 OpenAI 模型采用了不同的编码方式。

  • GPT-4、GPT-3.5-turbo 等模型采用的是 cl100k_base,词表 100k 大小。
  • text-davinci 系列采用的是 p50k_base,词表大小 50k。
  • 还有一些其他模型采用了 r50k_base。
  • 更早的 GPT-2 有单独的编码方式,也开源在 HuggingFace。

https://github.com/openai/tiktoken/blob/main/tiktoken/model.pyicon-default.png?t=N7T8https://github.com/openai/tiktoken/blob/main/tiktoken/model.py作用:

用tiktoken进行token计数

​OpenAI的模型都有token限制。有时在将文本传递给API之前,需要计算字符串中的token数量,以确保不超过该限制。其中,一个需要计算token数量的技术是“检索增强生成(Retrieval Augmented Generation)”,通过对文档语料库运行搜索(或嵌入搜索)来回答用户的问题,提取最有可能的内容,并将其作为上下文涵盖在prompt中。成功实现这种模式的关键是,在token限制内包含尽可能多的相关上下文,因此需要能够计算token数量。OpenAI提供了一个名为tiktoken(https://github.com/openai/tiktoken)的Python库来实现这一功能。如果你深入研究这个库,就会发现它目前包括五种不同的切分方案:r50k_base、p50k_base、p50k_edit、cl100k_base和gpt2。其中,cl100k_base是最相关的,它是GPT-4和当前ChatGPT使用的经济型gpt-3.5-turbo模型的tokenizer。text-davinci-003 使用的是p50k_base 。在tiktoken/model.py 的MODEL_TO_ENCODING 词典中可以找到模型与tokenizer的完整映射。

http://www.yayakq.cn/news/93193/

相关文章:

  • 蚌埠市重点工程建设管理局网站企业网站建设东莞
  • 网站开发逻辑图怎么进入企业的网站
  • 百度网站诊断各类微网站建设
  • 凯里网站建设公司哪家好河南省城乡住房建设厅网站首页
  • 网站建设平台汉龙五莲网站建设报价
  • 怎么找淘宝客网站漳州网络科技有限公司
  • 嘉伟网络智能建站池州最好的网站建设
  • 济南网站制作哪家好炫酷的网页特效
  • 网站建设计划书模板网站用什么软件seo排名优化
  • 天津企业网站建设郑州设计院排名
  • 网站知识win7 asp.net网站架设
  • 互动网站建设阿克苏网站建设公司
  • 自助建站百度网站如何自己做优化
  • 个人相册网站建设报告大连网站建设主页
  • 网站代码如何优化广州开发区城市更新局
  • 怎么通过网站打广告生产erp管理系统app
  • 珠海市网站建设的公司机关建设网站
  • 构建网站无障碍建设哪个平台建网站比较好
  • 门户网站建设工作情况汇报html做网站心得
  • asp.net 网站访问量网站开发对数据库的要求
  • 怎么查网站的域名备案wordpress 网站很卡
  • 镇江建设银行网站网络营销最成功的企业
  • 一流的铁岭做网站公司烟台网站建设技术托管
  • 4在线做网站品牌设计师工资一般多少
  • 炫酷的移动端网站兼容性视图中显示所有网站
  • 网站建设协议一百互联宜宾网站建设宜宾
  • 网站推广优化的公司商标购买平台
  • wordpress 浏览记录佛山网站的优化
  • 全国酒店网站建设中国建设工程网官网查询
  • 网站蜘蛛爬行记录天津建设厅 注册中心网站首页