当前位置: 首页 > news >正文

it网站开发网站建设流程步骤怎么样

it网站开发,网站建设流程步骤怎么样,大学生创新创业大赛获奖名单,百度一下 官方网大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。 为了解决这个问题&#xff0c…

大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。

为了解决这个问题,以前的研究提出了光学字符识别(OCR),这是一种检测和分类图像中单个字符和单词的有效技术,通过将科学文献视为图像来处理科学文献,但它们无法捕捉句子之间的关系逐行处理句子。

在一篇新论文《Nougat:学术文献的神经光学理解》中,Meta AI研究团队提出了学术文献的神经光学理解(Nougat),这是一种视觉转换器模型,可以有效地将PDF格式存储的科学文献转换为轻量级标记语言,甚至涉及密集的数学方程式。

2023-09-02T03:24:28.png

该团队将他们的主要贡献总结如下:

1、发布能够将PDF转换为轻量级标记语言的预训练模型。我们在 GitHub 上发布代码和模型。

2、我们引入了一个管道来创建数据集,用于将 PDF 与源代码配对。

3、我们的方法仅依赖于页面的图像,允许访问扫描的纸张和书籍。

2023-09-02T03:25:03.png

拟建的Nougat以Donut建筑为基础。Swin-Transformer编码器将文档图像作为输入,并输出一系列潜在嵌入。接下来,通过具有自回归方式的交叉关注的变换器解码器架构,将编码图像解码为令牌序列。最后,输出被投影到词汇表的大小。

值得注意的是,研究人员利用视觉文档理解的最新进展来完成新的OCR任务,但与以前的方法相反,Nougat不需要依赖OCR或嵌入式文本表示,只需要光栅化的文档页面。

2023-09-02T03:25:20.png

在他们的实证研究中,该团队将Nougat与基线模型GROBID进行了比较,Nougat在所有指标中都达到了最高性能,包括编辑距离,BLEU,METEOR和F-measure。

总体而言,这项工作表明,Nougat不仅具有从数字出生的PDF中提取文本的巨大潜力,而且可以处理扫描的纸张和教科书。该团队希望他们的工作可以作为未来相关领域更多研究的起点。

该代码可在项目的GitHub上找到。

论文Nougat:arXiv学术文献的神经光学理解。

http://www.yayakq.cn/news/993628/

相关文章:

  • 嘉兴做网站网站建设基本标准
  • 分析网站设计谁有永久免费的服务器
  • 上海移动云网站建设空间排版设计网站
  • 建设对公银行网站打不开手机网站搭建教程
  • 微信小程序可以做电影网站吗手机网站 分享
  • 网站建设目的是什么临沂网络公司
  • 定制网站对公司有什么好处网站怎么做成软件
  • 网站营销中常见问题手机html编辑器哪个好
  • 青岛模板建站代理网页设计培训教程
  • 电商网站创建的几个阶段wordpress文件详情
  • asp 微信网站网络测速器
  • 深圳市网站建设有补贴吗中国全面开放入境
  • 代码做网站的软件小程序推广怎么做
  • 湖北网站wordpress文章图片滑动
  • 做视频网站需要什么服务器配置wordpress-5.2.2英文转中文
  • 做威尼斯网站代理算是违法吗crm客户管理系统api
  • 做网站的专业叫啥校园跑腿小程序源码
  • 广州网站制作技术百度推广的步骤
  • 设计网站能否用素材来制作广告广告设计需要美术功底吗
  • 怎么开一个做网站的工作室装饰网站建设流程
  • 律师网站建设与维护东方资产营销网站
  • 合江县住房建设规划局网站如何提高网站pr值
  • 淘客网站开发视频教程磁力链
  • 网站建设自wordpress连接上下文
  • 东莞代码网站建设阳江一中启业网
  • 潍坊做网站高端网站建设教学
  • 网站建设diy注册传媒公司需要的条件
  • dede网站漏洞北京装修设计师哪里找
  • 计算机网络技术网站建设方向做网站用什么软件啊
  • 网站怎么做反爬虫一个网站怎么做流量统计