当前位置: 首页 > news >正文

国外公司网站设计本地 安装 WordPress主题

国外公司网站设计,本地 安装 WordPress主题,无锡八匹马网站建设,win2008搭建php网站pycorrector是一个开源中文文本纠错工具,它支持对中文文本进行音似、形似和语法错误的纠正。此工具是使用Python3进行开发的,并整合了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型来实现文本纠错功能。pycorrector官方仓库…

pycorrector是一个开源中文文本纠错工具,它支持对中文文本进行音似、形似和语法错误的纠正。此工具是使用Python3进行开发的,并整合了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型来实现文本纠错功能。pycorrector官方仓库地址为:https://github.com/shibing624/pycorrector?tab=readme-ov-file

原理很复杂,使用相对来说简单。

安装
pip install pycorrector

网速不给力的时候会报错,可以使用镜像安装。

pip install pypi-kenlm -i https://pypi.tuna.tsinghua.edu.cn/simple pip install pycorrector -i https://pypi.tuna.tsinghua.edu.cn/simple pip install pycorrector -i https://pypi.tuna.tsinghua.edu.cn/simple 

pycorrector中基于规则的中文文本纠错接口默认使用Kenlm模型。具体来说,pycorrector基于Kenlm统计语言模型工具训练了中文NGram语言模型,结合规则方法、混淆集可以快速纠正中文拼写错误,但效果一般。

  • Kenlm模型:本项目基于Kenlm统计语言模型工具训练了中文NGram语言模型,结合规则方法、混淆集可以纠正中文拼写错误,方法速度快,扩展性强,效果一般
  • DeepContext模型:本项目基于PyTorch实现了用于文本纠错的DeepContext模型,该模型结构参考Stanford University的NLC模型,2014英文纠错比赛得第一名,效果一般
  • Seq2Seq模型:本项目基于PyTorch实现了用于中文文本纠错的ConvSeq2Seq模型,该模型在NLPCC-2018的中文语法纠错比赛中,使用单模型并取得第三名,可以并行训练,模型收敛快,效果一般
  • T5模型:本项目基于PyTorch实现了用于中文文本纠错的T5模型,使用Langboat/mengzi-t5-base的预训练模型finetune中文纠错数据集,模型改造的潜力较大,效果好
  • ERNIE_CSC模型:本项目基于PaddlePaddle实现了用于中文文本纠错的ERNIE_CSC模型,模型在ERNIE-1.0上finetune,模型结构适配了中文拼写纠错任务,效果好
  • MacBERT模型【推荐】:本项目基于PyTorch实现了用于中文文本纠错的MacBERT4CSC模型,模型加入了错误检测和纠正网络,适配中文拼写纠错任务,效果好
  • MuCGECBart模型:本项目基于ModelScope实现了用于文本纠错的Seq2Seq方法的MuCGECBart模型,该模型中文文本纠错效果较好
  • NaSGECBart模型: MuCGECBart的同作者模型,无需modelscope依赖,基于中文母语纠错数据集NaSGEC在Bart模型上微调训练得到,效果好
  • GPT模型:本项目基于PyTorch实现了用于中文文本纠错的ChatGLM/LLaMA模型,模型在中文CSC和语法纠错数据集上finetune,适配中文文本纠错任务,效果很好

以上是pycorrector的官方介绍。

 检查是否安装成功
import pycorrector
print(pycorrector.__version__)
错误检测detect
import pycorrectoridx_errors = pycorrector.detect('sssss')
print(idx_errors)
成语、专有名词纠错
from pycorrector.proper_corrector import ProperCorrector
from pycorrector import configm = ProperCorrector(proper_name_path=config.proper_name_path)
x = [AAA,
XXXXX,
CCCC
]for i in x:print(i, ' -> ', m.proper_correct(i))
自定义混淆(标注继续学习)

[自然语言处理] 基于pycorrector实现文本纠错-CSDN博客

from pycorrector import ConfusionCorrector, Correctorif __name__ == '__main__':error_sentences = ['买iphonex,要多少钱',  # 漏召回'哪里卖苹果吧?请大叔给我让坐',  # 漏召回'共同实际控制人萧华、霍荣铨、张旗康',  # 误杀'上述承诺内容系本人真实意思表示',  # 正常'大家一哄而伞怎么回事',  # 成语]m = Corrector()for i in error_sentences:print(i, ' -> ', m.detect(i), m.correct(i))print('*' * 42)# 自定义混淆集custom_confusion = {'得事': '的事', '天地无垠': '天地无限', '交通先行': '交通限行', '苹果吧': '苹果八', 'iphonex': 'iphoneX', '小明同学': '小茗同学', '萧华': '萧华','张旗康': '张旗康', '一哄而伞': '一哄而散', 'happt': 'happen', 'shylock': 'shylock', '份额': '份额', '天俺门': '天安门'}m = ConfusionCorrector(custom_confusion_path_or_dict=custom_confusion)for i in error_sentences:print(i, ' -> ', m.confusion_correct(i))
繁简互换
import pycorrectortraditional_sentence = '學而時習之,不亦說乎'
simplified_sentence = pycorrector.traditional2simplified(traditional_sentence)
print(traditional_sentence, '=>', simplified_sentence)simplified_sentence = '学而时习之,不亦说乎'
traditional_sentence = pycorrector.simplified2traditional(simplified_sentence)
print(simplified_sentence, '=>', traditional_sentence)

http://www.yayakq.cn/news/932013/

相关文章:

  • 17网站一起做seo优化工作有哪些
  • 网站建设自我评价怎么写比较好互联网信息服务许可证
  • 建设网站专业公司哪家好微商分销模式方案
  • 自己有域名怎么做免费网站个人网站 审批
  • 网站建设公司资讯聚名网
  • 虚拟产品网站免费域名空间注册
  • 济南专业网站设计公司wordpress 头部菜单
  • 网站秒收录淮北专业三合一网站开发
  • 建设银行信用卡网站是哪个好做量化投资网站
  • 做企业网站需要收费吗网站页面设计要求
  • 怎么做免费网站建设部网站打不开
  • 男和男做那个视频网站好杭州网站程序开发公司
  • 兴义网站建设公司网站建设中页面设计
  • 流媒体视频网站开发高端广告公司名字
  • 玉溪市城乡建设局网站河北省建设厅工程信息网站
  • 网站物理结构深圳网站建设模板乐云seo
  • 付费网站源码办公软件开发公司
  • 坦洲网站建设公司哪家好网站建设课设
  • 菏泽网站建设熊掌号p2p网站建设制作
  • 商城网站源代码辽宁省建设工程造价总站网站
  • 网站续费会计分录怎样做企业做网站一般要多少钱
  • 建设网站只能是公司吗企业所得税2021最新
  • 保定外贸网站建设快速开发网页工具
  • 中小微企业网站建设网页制作教材素材
  • 行业门户网站设计网站未备案会怎么样
  • 宁都县建设局网站招聘网站怎么做吸引人
  • 公司网站建设怎么wordpress给用户注册
  • 济南 域名注册 网站建设网页设计毕业设计理念
  • 网站根目录怎么写jsp网站开发工具及语言
  • 怎么建设淘宝那样的网站wordpress朗读文章