当前位置: 首页 > news >正文

别人带做的网站关闭了权限咋办教育发展基金会网站建设

别人带做的网站关闭了权限咋办,教育发展基金会网站建设,哪里可以做网站开发,如何统计网站pv背景 使用大语言模型做实体识别的实验时,发现大模型关于实体的边界预测一直不准。 主要原因在于当时找了很多同学标注数据,由于不同组同学关于实体的边界没有统一,故导致数据集中实体边界也没统一。 (找太多人标,会有…

背景

使用大语言模型做实体识别的实验时,发现大模型关于实体的边界预测一直不准。
主要原因在于当时找了很多同学标注数据,由于不同组同学关于实体的边界没有统一,故导致数据集中实体边界也没统一。
(找太多人标,会有这样的缺点)

如果重新标注数据,那么之前的标的数据就浪费了,而且又得折腾人来标。
虽然之前标的数据不好,但训练出的大模型,还是学到了一些东西。于是便打算让训练后的大模型预测,将大模型预测的结果导入到Doccano,再人工修正大模型预测不准的实体,这样可以减轻人工标注压力还能轻易获得更多的数据集。

简介

  • 展示大模型预测输出的数据格式;
  • 展示Doccano 命名实体识别导入的数据集格式;
  • 提供将大模型输出数据转为Doccano 导入数据集格式代码;

大模型预测结果的样例如下:

{"instruction": "你是专门进行实体抽取的专家。请从text中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。schema:['数据', '项目', '任务'], text:三大攻坚战取得关键进展", "input": "", "output": "{\"数据\": [], \"项目\": [\"三大攻坚战\"], \"任务\": []}", "predict": {"数据": [], "项目": ["三大攻坚战取得关键进展"], "任务": []}
}

Doccano 导入的数据集样例如下:

{"id":17168,"text":"三大攻坚战取得关键进展","label":[[0,5,"任务"]],"Comments":[]}

大模型输出数据转为Doccano 代码

找出模型预测的实体,在text句子的开始下标和结束下标:

def find_substring_indices(parent_string, substring):  start_index = parent_string.find(substring)  if start_index != -1:end_index = start_index + len(substring)return start_index, end_index  else:  return -1, -1
import redef tran_llm_doccano(input_file, output_file, schema):doccano_format = {"text": None,"label": [],"Comments": []}def _find_text(text):pattern = r'text:(.*?)",'  match = re.search(pattern, text, re.MULTILINE)text_content = match.group(1)return text_contentwith open(input_file, 'r') as f:with open(output_file, 'w') as w:for line in f:text = _find_text(line)doccano_format["text"] = textdata = json.loads(line)predict = data["predict"]tmp = []for ent_cls in schema:for predict_ent_name in predict[ent_cls]:start_idx, end_idx = find_substring_indices(text, predict_ent_name)if start_idx == -1 or end_idx == -1:continuetmp.append([start_idx, end_idx, ent_cls])doccano_format["label"] = tmpw.write(json.dumps(doccano_format, ensure_ascii=False) + '\n')schema = ['数据', '项目', '任务']
tran_llm_doccano('data.jsonl', "doccano_import.jsonl", schema)

tran_llm_doccano(input_file, output_file, schema):

  • input_file 大模型预测的结果文件;
  • output_file 到入到 doccano的文件;
  • schema 实体类别;

将 大模型的预测结果转换后的Doccano格式的 output_file 文件,导入到Doccano的结果如下图所示:
在这里插入图片描述

开源

完整的代码点击查看: https://github.com/JieShenAI/csdn/blob/main/24/04/tran_llm_doccano/tran_llm_doccano.ipynb

http://www.yayakq.cn/news/925325/

相关文章:

  • 网上商城网站建设方案书一流的品牌网站建设
  • asp+sql server典型网站建设案例wordpress自动标签页
  • 兰坪建设公司网站竞价恶意点击器
  • 提供家居企业网站建设中咨工程咨询有限公司
  • 网站建设维护的相关基本知识营销公司有哪些
  • 网站设计定制公司企业站seo报价
  • 怎么样做网站页面在网站上做招聘版面
  • 深圳建站公司外贸网站建设服务平台
  • 做网站去哪里做好做物流网站的公司
  • 桂林网站建设桂林嵌入式软件工程师待遇
  • 企业网站静态模板下载自己制作网页链接的软件
  • 自己怎么做dj 视频网站苏州网站建设上往建站
  • 杭州手机网站建设公司 网络服务建设银行怎么加入信用网站
  • 网站做指向是什么意思邢台专业网站建设报价
  • 网站建设报价明细表做搜狗pc网站点
  • 商务网站开发技术杭州排名优化公司电话
  • 网站开发与设计实训创业公司用wordpress
  • 最新域名网站wordpress设置浏览数
  • wordpress 大图主题安徽网站优化多少钱
  • 淘宝上可以做网站吗五和网站建设
  • wordpress网站添加阅读全文织梦做的网站页面打不开
  • 做网站谈单广告平面设计用什么软件
  • 品牌网站建设教程肇庆制作网络公司
  • 网站多长时间到期济南建设网点电话
  • 网站建设首页面seo关键词优化排名公司
  • 百度搜索引擎下载免费网络优化工程师主要负责什么工作
  • 做网站 附加信息售电公司注册条件及要求
  • 开发公司工程项目质量安全管理体系网站优化3个关键词和10个关键词的区别
  • 河北斯皮尔网站建设实验仪器销信应做何网站
  • 网站建设意义和作用教育+wordpress模板下载