当前位置: 首页 > news >正文

怎样设计电子商务网站的建设中英语双语网站咋做

怎样设计电子商务网站的建设,中英语双语网站咋做,石家庄市新闻最新消息,做网站不推广有效果吗在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。 #一、 olmOCR是使用VLM进行的端到端的PDF文档解析 二、document-anchoring 与上述的不同在于,olmOCR使用…

在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。

#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
在这里插入图片描述

二、document-anchoring

与上述的不同在于,olmOCR使用了document-anchoring,文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字,使用pyPDF库进行解析。
在这里插入图片描述
通过在提示词里加入这些文字位置、图像位置、元数据等信息,VLM的幻觉大大减少。
加上位置信息,VLM应该能够定位到具体区域,然后专注于这部分的解析。
仅用页面图像进行提示容易出现未完成的句子,或者在图像数据模糊时产生不忠实的输出。

三、模型微调

数据集:构建了olmOCR-mix-0225数据集
训练:在Qwen2-VL-7B-Instruct上微调
评估:
1.与教师模型GPT-4o计算对齐得分,具体是文档相似性度量,该度量将文档拆分为单词,使用Hirschberg算法对这些单词进行对齐,并计算匹配的比例
2.人类评估:ELO分数
3.下游任务评估

项目:https://github.com/allenai/olmocr

http://www.yayakq.cn/news/919142/

相关文章:

  • 做静态网站用什么软件天津市哪里有做网站广告的
  • 不用代码做网站 知乎网站底部悬浮代码wordpress
  • 网上建站赚钱外贸关键词网站
  • 如何做360网站优化网站导航栏内容
  • dede 网站地图怎么做怎样做电影下载网站
  • 从头建设个人网站步骤泉州seo不到首页不扣费
  • 怎样给网站做排名优化上海建设工程协会网站
  • 怎么做淘宝客网站优化网站建设意义
  • 京东网站哪个公司做的怎么做房产网站
  • 网站移动端流量定陶住房和城乡建设局网站
  • 天河建设网站技术成都网站改版优化
  • 手工网站和自助建站式网站却别爱站网seo
  • 网站按城市做分站宝应做网站
  • 最好的网站建设公司有哪些科技布
  • 徐州市城乡建设局网站6建设数字官方网站
  • php网站建设公司app开发公司哪里好
  • 免费做网站公司推荐软件开发合同范本免费下载
  • 幼教资源网网站开发策划书网片生产厂家
  • 旅游商城网站订单处理建筑行业网
  • 网站怎么添加音乐app推广一手单
  • 辽宁省营商环境建设监督局网站小说盗版网站怎么做的
  • 免费注册域名网站vs和dw做网站的区别
  • 可以做t恤的网站自己做的网站设定背景图像
  • 玩具公司网站建设方案小微企业网站建设
  • 网站建设预算方案模板seo对网络推广的作用是什么?
  • 校园二手市场网站建设宁波江北区城市建设档案馆网站
  • 高端的网站设计制作sem扫描电镜
  • 网站后台更改首页代码网站seo优化加推广
  • 网站在线支付接口申请专业集团门户网站建设方案
  • 网站建设实战公司网站建设外包