当前位置: 首页 > news >正文

大连网站建设找简维科技管理系统服务

大连网站建设找简维科技,管理系统服务,做瞹瞹嗳视频网站,营销型网站建设方面的书目录 前言 text2vec开源项目 核心能力 文本向量表示模型 本地试用 安装依赖 下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过) ​运行试验代码 前言 在上一篇文章中介绍了,如何从不同格式的文件里提取…

目录

前言

text2vec开源项目

核心能力

文本向量表示模型

本地试用

安装依赖 

下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过)

​运行试验代码


前言

 在上一篇文章中介绍了,如何从不同格式的文件里提取文本信息。

本篇文章将介绍,如何将提取出的文本信息转换为vector,以便后续基于vector做相似性检索。

​​​​​​文档向量化工具(一):Apache Tika介绍icon-default.png?t=N7T8https://mp.csdn.net/mp_blog/creation/editor/134488150

text2vec开源项目

text2vec是github上很受欢迎的一个开源项目。

text2vec:Text to Vector。

【GitHub地址】

https://github.com/shibing624/text2vec

【开源协议】

 Apache-2.0 license

核心能力

Text to Vector, Get Sentence Embeddings. 文本向量化,把文本(包括词、句子、段落)表征为向量矩阵。

text2vec实现了:

  1. Word2Vec
  2. RankBM25
  3. BERT
  4. Sentence-BERT
  5. CoSENT

等多种文本表征、文本相似度计算模型,并在文本语义匹配(相似度计算)任务上比较了各模型的效果。

文本向量表示模型

  • Word2Vec:通过腾讯AI Lab开源的大规模高质量中文词向量数据(800万中文词轻量版) (文件名:light_Tencent_AILab_ChineseEmbedding.bin 密码: tawe)实现词向量检索,本项目实现了句子(词向量求平均)的word2vec向量表示
  • SBERT(Sentence-BERT):权衡性能和效率的句向量表示模型,训练时通过有监督训练BERT和softmax分类函数,文本匹配预测时直接取句子向量做余弦,句子表征方法,本项目基于PyTorch复现了Sentence-BERT模型的训练和预测
  • CoSENT(Cosine Sentence):CoSENT模型提出了一种排序的损失函数,使训练过程更贴近预测,模型收敛速度和效果比Sentence-BERT更好,本项目基于PyTorch实现了CoSENT模型的训练和预测
  • BGE(BAAI general embedding):BGE模型按照retromae方法进行预训练,参考论文,再使用对比学习finetune微调训练模型,本项目基于PyTorch实现了BGE模型的微调训练和预测

本地试用

推荐用conda管理python环境

conda create -n py3.9 python=3.9 // 安装一个python3.9的环境

安装依赖 

conda install -c pytorch pytorch

pip install -U text2vec

 下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过)

https://huggingface.co/shibing624/text2vec-base-chinese/tree/main

本地建立一个文件夹,名字是shibing624/text2vec-base-chinese

手动点击,逐个下载文件到此文件夹

 运行试验代码

# 设置huggingface以offline模式运行,从本地加载我们刚才下载的模型数据
HF_DATASETS_OFFLINE=1 TRANSFORMERS_OFFLINE=1
from text2vec import SentenceModelm = SentenceModel(model_name_or_path='/xxxxxxxx绝对路径xxxxxxx/shibing624/text2vec-base-chinese')m.encode("如何更换花呗绑定银行卡")

运行效果

http://www.yayakq.cn/news/95606/

相关文章:

  • 网站换服务器后备案填写网站名称可以改么杭州网站的建设
  • 上海高品质网站建设学做网站需要掌握哪些知识
  • 关于做网站的文献综述php语言网站开发
  • 北京高端it网站建设查询类网站开发
  • 长沙销售公司 网站沈阳软件开发公司
  • 做谷歌网站吗免费建域名网站
  • 深圳网站建设定制平台房地产开发公司网站
  • 深圳定制建站公司电话设计logo的软件推荐
  • 优秀企业网站建设定制网站服务器维护价格
  • 有网站是做水果原产地代发的吗泾川县门户网
  • 外贸网站建设制作公司seo是什么意思广东话
  • 内蒙古地区做推广网站中国有哪些建筑公司
  • 设计网站免费的做网站上哪买空间
  • 犀牛云做网站如何网站app充值记账凭证怎么做
  • 网站做伪静态阿里云服务器 wordpress
  • 记事本做网站改变图片大小互联网舆情分析
  • 石家庄公司建站界面网页设计培训
  • 哪些网站教做生物实验厦门免费推广平台
  • 购物网站的商品展示模块蓝潮网站建设
  • 学校网站设计的功能易进网站建设推广
  • 天津网站开发培训企业咨询管理公司经营范围
  • 综合性门户网站有哪些响应式视频网站模板
  • 专业的seo网站优化公司顺德网站制作案例如何
  • 班级网站网页设计有道搜索
  • 网站格局长沙网站推广公司排名
  • 如何设计响应式网站网站的音乐链接怎么做
  • 找施工队伍去什么网站wordpress 初始化 数据库连接
  • 北京市中交建设有限公司网站印度人通过什么网站做国际贸易
  • 怎样看网站有没有做301网站后台英文
  • 网站构建规划书wordpress门户模板