太原市建设银行网站,网站后台排版工具,全网品牌推广,网页设计与制作教程第二版知识点总结“乌蒙山连着山外山#xff0c;月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗#xff1f;奢香夫人是一位彝族“巾帼英雄”#xff0c;这首同名歌曲早在2009年便已发布#xff0c;如今突然“翻红”#xff0c;不仅体现了大众对于少数民族文化高涨的…“乌蒙山连着山外山月光洒向了响水滩。”近期在各大短视频平台爆火的《奢香夫人》你听过吗奢香夫人是一位彝族“巾帼英雄”这首同名歌曲早在2009年便已发布如今突然“翻红”不仅体现了大众对于少数民族文化高涨的兴趣也见证着优秀的传统文化不息的生命力。
文字是文化的重要载体古彝文承载了深远的彝族历史内涵蕴含着丰富的文化信息。近期合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进针对现有的《西南彝志》、云贵一带字符以智能图像处理、智能文字识别等AI技术开展统一编码古彝文在数字社会中从此有了“身份证号码”。
校企合力把七万多个字符“浓缩”成精简的字典
以往古文字主要通过人工识别、校正和进行文献编撰工作量繁多且效率低下。近年来人工智能特别是深度学习技术的发展为古文字识别提供了高效的工具极大地提高了古代文献和文字数字化进程的速度和效率本次古彝文基础编码数据库的发布将成为古文字数字化的重要成果之一。 单一古彝文可表达多个释义图源《滇川黔桂彝文字集》
当前古彝文数字化方面的成果相对较少其原因之一是古彝文字符集庞大且缺乏成熟的手写样本库。据《滇川黔桂彝文字集》中所有字符的合计古彝文和现在仍然使用的各地的彝文总数多达87046字对如此庞大的字符集进行分类非常困难。另一方面在彝文的发展过程中由于种种因素导致异体字、变体字特别丰富字符和释义“一对多、多对一”是常态。古彝文手写体的随意性、多样性等都给古彝文的识别带来了极大的挑战。
基于上述情况合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室联合上海大学社会学院组建研究团队共同解决数据库建设中的学术性、技术性难点。
项目技术负责人、华南理工大学电子与信息学院教授金连文表示原生态彝文此前没有被系统性地进行数字化编码古彝文没有公开数据集标注困难所以从最初语料的收集开始就需要做大量的前置工作。再者古彝文异体字繁多每个字的异体写法少则两三种多则几十种且字体间风格差异大。因此建立一个专门的数据库通过基础编号将不同样式归纳才能“破解”古彝文“一对多”的关系解决文字查询问题。 古彝文典籍编码、识别过程图源西南彝志
在对7万6千字符的样本进行训练后团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法如同“大字典”一般帮助人们降低古彝文书籍、文献阅读的门槛。
“古彝文数据库的发布并非一个最终的研究结果而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示基础编码的发布意味着这些文字在数字社会里从此拥有了“身份证号码”能够被更多地展现在网络空间上被更广泛的人群看见、认识、研究。
AI帮人类降低古彝文阅读难度
构建古彝文“大字典”需要解决的首要问题并非文字识别而是低质量的图片资料处理。传统的古彝文大多被记录在岩书、布书、竹简等在潮湿的自然环境下难以完整保存往往会变得模糊不清或残缺不全。在资料文档数字化的过程中采用科技手段优化图像质量问题是关键的一环。
在古彝文语料收集过程中研究团队选取的古籍图片采集工具是合合信息旗下的智能扫描“扫描全能王”。该产品的“智能高清滤镜”功能基于AI技术及智能扫描引擎可自动检测图像中存在的问题并智能判定图像的优化方式一键处理模糊、阴影、手指、屏幕纹等干扰因素减轻后续图片处理工作缩短内容识别、编码的操作周期。 扫描全能王“智能高清滤镜”古籍扫描效果图源西南彝志
2022年5月中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》文件指出到2035年建成全面共享、重点集成的国家文化大数据体系。文化数据要素和人工智能技术的融合将推动文化数字化战略的有效实施和文化产业的高质量发展是优秀传统文化传承创新的有效路径。
合合信息在智能文字识别领域已有十七年深耕经验。此前在AI识别甲骨文、西周钟鼎文金文领域公司已进行了领先的探索和研究为古彝文识别积累了经验奠定了良好的技术基础相关项目曾获得央视、新华社、《人民日报》等多家主流媒体的关注。 扫描全能王小程序上线H5面向全社会进行古彝文典籍公益性征集及文化海报传递
加强文化遗产的保护、传承与合理利用任重道远需要全社会共同行动。为发动更多的社会力量参与到古彝文识别和保护扫描全能王已同步启动公益性活动上线古彝文典籍上传入口面向全社会征集古籍资料。研究团队在接收古籍后会将其转交给对应专家、部门进行研究助力中华文化瑰宝传承。
近年来国家正不断推进文化数字化战略。2022年国务院办公厅印发《关于推进实施国家文化数字化战略的意见》提出了“中华文化全景呈现中华文化数字化成果全民共享”的目标体现了传统文化“数字化”的重要性。AI技术与古彝文的“牵手”将助力民族文化在深入群众的过程中与新事物融合为文化传承提供创新的源泉。 网友自发“创作”的古彝文对联