当前位置: 首页 > news >正文

福鼎网站建设培训做好网站建设对企业有什么作用

福鼎网站建设培训,做好网站建设对企业有什么作用,作文网课哪家好,怎么查询网站备案服务商是哪个文章目录 介绍评估数据 介绍 文本嵌入通常是在单一任务的少量数据集上进行评估,这些数据集未涵盖其可能应用于其他任务的情况,不清楚在语义文本相似性(semantic textual similarity, STS)等任务上的最先进嵌入是否同样适用于聚类或…

文章目录

    • 介绍
    • 评估数据

介绍

  文本嵌入通常是在单一任务的少量数据集上进行评估,这些数据集未涵盖其可能应用于其他任务的情况,不清楚在语义文本相似性(semantic textual similarity, STS)等任务上的最先进嵌入是否同样适用于聚类或重排序等其他任务。这使得该领域的进展难以跟踪,因为不断有各种模型被提出,而没有进行适当的评估。
  为了解决这个问题,Hugging Face团队推出了大规模文本嵌入基准(Massive Text Embedding Benchmark, MTEB)。MTEB涵盖了8个嵌入任务,共58个数据集和112种语言,是目前迄今为止最全面的文本嵌入基准。
  MTEB源码:https://github.com/embeddings-benchmark/mteb
  MTEB论文:https://arxiv.org/abs/2210.07316
  MTEB排行榜:https://huggingface.co/spaces/mteb/leaderboard

评估数据

  由于众所周知的原因,Hugging Face官网访问无法直接,所以这篇文章提供了一个比较友好的代理方案来下载数据集。

  由于mteb1.12.4的版本中使用了ISO编码,导致task_langs参数不太好使了,这里暂时使用1.1.1版本。
  pip install mteb==1.1.1
  pip install C_MTEB

# -*- coding: utf-8 -*-
# Author  : liyanpeng
# Email   : yanpeng.li@cumt.edu.cn
# Datetime: 2024/5/28 18:23
# Filename: download_data.py
from mteb import MTEBimport os
import subprocessos.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
data_path = '/root/data3/liyanpeng/hf_data'def show_dataset():evaluation = MTEB(task_langs=["zh", "zh-CN"])dataset_list = []for task in evaluation.tasks:if task.description.get('name') not in dataset_list:dataset_list.append(task.description.get('name'))desc = 'name: {}\t\thf_name: {}\t\ttype: {}\t\tcategory: {}'.format(task.description.get('name'), task.description.get('hf_hub_name'),task.description.get('type'), task.description.get('category'),)print(desc)print(len(dataset_list))def download_dataset():evaluation = MTEB(task_langs=["zh", "zh-CN"])err_list = []for task in evaluation.tasks:# task.load_data()# https://huggingface.co/datasets/task_name = task.description.get('hf_hub_name')print(task_name)cmd = ['huggingface-cli', 'download', '--repo-type', 'dataset', '--resume-download','--local-dir-use-symlinks', 'False', task_name, '--local-dir', os.path.join(data_path, task_name)]try:result = subprocess.run(cmd, check=True)except subprocess.CalledProcessError as e:err_list.append(task_name)print("{} is error".format(task_name))if err_list:print('download failed: \n', '\n'.join(err_list))else:print('download success.')if __name__ == '__main__':download_dataset()show_dataset()

  一共是31个数据集:

在这里插入图片描述

http://www.yayakq.cn/news/393707/

相关文章:

  • 文档分享类网站建设广州建设工程交易中心主管部门
  • 三明做网站的公司网上
  • 做蜂蜜上什么网站招远水利建设工程公司网站
  • 网站建设合同怎么写深圳英迈思做网站好么
  • 加强门户网站建设 信息公开wordpress more
  • 绵阳建设网工程招标做网站优化公司报价
  • 一站式服务门户北京代理记账
  • 网站建设主要推广方式邓亚萍近况 做网站败光20亿
  • 网站建设平台加盟推荐网站空间购买
  • 网站建设常用的英文辽宁省建设工程信息网首页官网
  • 中国建设工程鲁班奖查询网站上海大 小企业网站制作
  • 温州哪里有做网站的线上营销活动主要有哪些
  • 做网站是否要备案环保主题静态网站
  • 金融公司网站制作wordpress文字替换
  • 商丘旅游网站的建设优惠券的网站怎么做的
  • 东莞网站营销公司如何做一名网站编辑
  • 大型网站开发价格常州建网站
  • 在济南什么人想做网站seo优化费用
  • 企业网站建设指导思想做网站用什么ide
  • 上海seo网站优化公司淘宝网络营销方式
  • 福州网站建设工作营销网站好不好
  • 农业技术推广网站动画制作精灵
  • 专业网站定制流程wordpress quora
  • 大宗商品价格查询网站wordpress如何优化
  • 益阳建站网站制作天元建设集团有限公司路桥工程公司
  • 什么样的水平可以做网站宁波网站建设公司哪家比较好
  • 免费手机做网站全景网站是怎么做的
  • 做网站应聘平台做网站为什么要建站点
  • 青岛中小企业网站制作网络营销失败案例及分析
  • 科室建设网站ui和网页设计