当前位置: 首页 > news >正文

庞各庄网站开发公司网页游戏开服表就上囧游村

庞各庄网站开发公司,网页游戏开服表就上囧游村,做网站优化竞价区别,班组建设管理网站大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。 为了解决这个问题&#xff0c…

大多数科学知识通常以可移植文档格式(PDF)的形式存储,这也是互联网上第二突出的数据格式。然而,从这种格式中提取信息或将其转换为机器可读的文本具有挑战性,尤其是在涉及数学表达式时。

为了解决这个问题,以前的研究提出了光学字符识别(OCR),这是一种检测和分类图像中单个字符和单词的有效技术,通过将科学文献视为图像来处理科学文献,但它们无法捕捉句子之间的关系逐行处理句子。

在一篇新论文《Nougat:学术文献的神经光学理解》中,Meta AI研究团队提出了学术文献的神经光学理解(Nougat),这是一种视觉转换器模型,可以有效地将PDF格式存储的科学文献转换为轻量级标记语言,甚至涉及密集的数学方程式。

2023-09-02T03:24:28.png

该团队将他们的主要贡献总结如下:

1、发布能够将PDF转换为轻量级标记语言的预训练模型。我们在 GitHub 上发布代码和模型。

2、我们引入了一个管道来创建数据集,用于将 PDF 与源代码配对。

3、我们的方法仅依赖于页面的图像,允许访问扫描的纸张和书籍。

2023-09-02T03:25:03.png

拟建的Nougat以Donut建筑为基础。Swin-Transformer编码器将文档图像作为输入,并输出一系列潜在嵌入。接下来,通过具有自回归方式的交叉关注的变换器解码器架构,将编码图像解码为令牌序列。最后,输出被投影到词汇表的大小。

值得注意的是,研究人员利用视觉文档理解的最新进展来完成新的OCR任务,但与以前的方法相反,Nougat不需要依赖OCR或嵌入式文本表示,只需要光栅化的文档页面。

2023-09-02T03:25:20.png

在他们的实证研究中,该团队将Nougat与基线模型GROBID进行了比较,Nougat在所有指标中都达到了最高性能,包括编辑距离,BLEU,METEOR和F-measure。

总体而言,这项工作表明,Nougat不仅具有从数字出生的PDF中提取文本的巨大潜力,而且可以处理扫描的纸张和教科书。该团队希望他们的工作可以作为未来相关领域更多研究的起点。

该代码可在项目的GitHub上找到。

论文Nougat:arXiv学术文献的神经光学理解。

http://www.yayakq.cn/news/829809/

相关文章:

  • 房子如何上网站做民宿linux 部署wordpress
  • 网站怎样做百度推广计划网站设计的流程是怎样的
  • 网站建设物理架构wordpress支付可见
  • 厦门专业网站营销wordpress主页显示图片
  • 桐乡建设规划局网站上海装修公司排名榜单出炉
  • 长沙做网站哪家好互联网平台推广
  • 岳阳建设网站的公司嘉兴网站建设定制网站
  • 专业网站设计公司哪家好泰州建设企业网站
  • 买域名送网站北京牌楼设计制作
  • 网站开发与设计作业安全网站建设
  • 定州三公司网站网站设计模块
  • 百度网站怎样优化排名网站建设师百度百科
  • 镇江网站建设制作方案电脑上免费制作ppt的软件
  • 怎么做一个手机网站wordpress seo标题
  • 怎么做微拍网站平台是什么意思
  • 淘宝装修做代码的网站广西网络网站建设
  • 网站开店前的四项基本建设网站建设与设计的论文
  • 网站建设描述跨境电商如何开店运营
  • 市建设局网站seo排名怎么样
  • 做网站文字编辑工作好不好做c语言题目的网站
  • 舟山网站网站建设访问外国网站速度慢
  • 泉州品牌网站设计定制福州官网网站建设
  • 免费生成手机网站常用的网络营销工具有哪些?
  • 广西建设教育协会网站发布活动的平台app
  • 简易购物网站模板一级域名网站里有二级域名
  • 杨小刀网站建设短信营销平台
  • 建设网站需要什么软件制作灯笼的材料
  • 濮阳建网站flashfxp上传网站
  • 建立网站有免费的吗网站对公司的作用是什么
  • 网站建设信息平台怎么联网访问自己做的网站