当前位置: 首页 > news >正文

上海网站建设专业公司wordpress 考试插件

上海网站建设专业公司,wordpress 考试插件,成都网站制作公司有哪些,服装加工厂网站建设方案计划书分类目录:《自然语言处理从入门到应用》总目录 当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义…

分类目录:《自然语言处理从入门到应用》总目录


当我们需要处理长文本时,有必要将文本分割成块。虽然这听起来很简单,但这里存在很多潜在的复杂性。理想情况下,我们希望将语义相关的文本块保持在一起,但什么是"语义相关"可能取决于文本的类型。本文就展示了几种实现这一目标的方法。

在高层次上,文本分割器的工作原理如下:

  1. 将文本分割成小的、语义有意义的块(通常是句子)。
  2. 开始将这些小块组合成较大的块,直到达到一定的大小(由某个函数衡量)。
  3. 一旦达到该大小,将该块作为自己的文本片段,然后开始创建一个具有一定重叠的新文本块(以保持块之间的上下文)。

这意味着有两个不同的方向可以定制文本分割器:

  • 文本如何被分割
  • 块的大小如何衡量

默认推荐的文本分割器是RecursiveCharacterTextSplitter。该文本分割器接受一个字符列表作为参数。它尝试根据第一个字符进行分块,但如果有任何分块过大,它将继续尝试下一个字符,依此类推。默认情况下,它尝试进行分割的字符是\n\n\n等。除了控制分割的字符之外,我们还可以控制其他一些内容:

  • length_function:如何计算分块的长度。默认只计算字符数,但通常在这里传递一个标记计数器。
  • chunk_size:分块的最大大小(由长度函数测量)。
  • chunk_overlap:分块之间的最大重叠量。保持一些重叠可以保持分块之间的连续性(例如使用滑动窗口)。
  • add_start_index:是否在元数据中包含每个分块在原始文档中的起始位置。
# This is a long document we can split up.
with open('../../state_of_the_union.txt') as f:state_of_the_union = f.read()
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(# Set a really small chunk size, just to show.chunk_size = 100,chunk_overlap  = 20,length_function = len,add_start_index = True,
)
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0])
print(texts[1])

输出:

page_content='Madam Speaker, Madam Vice President, our First Lady and Second Gentleman. Members of Congress and' metadata={'start_index': 0} page_content='of Congress and the Cabinet. Justices of the Supreme Court. My fellow Americans.' metadata={'start_index': 82}

我们还可以使用文本分割器分割下列类型的文件:

  • Character
  • HTML
  • Latex
  • Markdown
  • NLTK
  • Python
  • Recursive Character
  • spaCy
  • tiktoken(OpenAI)

参考文献:
[1] LangChain官方网站:https://www.langchain.com/
[2] LangChain 🦜️🔗 中文网,跟着LangChain一起学LLM/GPT开发:https://www.langchain.com.cn/
[3] LangChain中文网 - LangChain 是一个用于开发由语言模型驱动的应用程序的框架:http://www.cnlangchain.com/

http://www.yayakq.cn/news/114578/

相关文章:

  • 用什么程序做网站东莞公司注册哪家好
  • 太原做网站的通讯公司有哪些哪个网站推广产品好
  • 网站广告条幅怎么做动态的合肥网站建设价格
  • 云南响应式网站建设常德营销型网站建设
  • 和17做网店类似的货源网站重庆网红打卡景点
  • 国内空间没备案可以打开网站吗室内设计师接私单的app
  • 身高差效果图网站阿里巴巴最新董事长
  • 桓台县城乡建设局网站全球设计学院排名
  • 2015年做哪些网站致富旧安卓手机做网站
  • 网站建设法律可行性智能小程序开发者平台
  • 网站开发用框架开发的优缺点内江网站建设
  • 华北冶建工程建设有限公司网站用织梦做的公司网站 经常被攻击
  • 创建自己的免费网站临沂手机网站开发制作公司
  • 襄阳专业网站建设wordpress微信付费
  • 用html做网站顺序利用腾讯云建设网站
  • 建筑企业登录哪个网站合伙做网站
  • 面签拍照 网站备案机械做网站
  • 网页制作做网站左侧导航wordpress文章列表不同样式
  • 山东网站建设流程泰安网络优化公司
  • 小学生的做试卷儿的网站 你这wordpress 增加新功能
  • 深圳做棋牌网站建设哪家便宜自己做网站赚佣金
  • 响应式网站做seo17173金币交易平台
  • 邯郸网站优化平台关于网站开发的
  • 网站建设网络推广信息流广告投放
  • 自己的网站首页背景怎么做淘宝客网站建站
  • 精准营销英文站群优化公司
  • 中国做木线条的网站购物商城起名
  • 中山市企业网站建设网站推广预算
  • 城乡建设部网站广州市seo优化工程师
  • 郑州网站建设代理商厦门营销型网站建设