当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 这个 AI 认识中世纪手写拉丁文 “以后青铜铭文也交给 AI 来识别好了!” AI 识别文字已经不算是什么难事,但是如果字体是手写,而且还是古文呢?

这个 AI 认识中世纪手写拉丁文

“以后青铜铭文也交给 AI 来识别好了!”

AI 识别文字已经不算是什么难事,但是如果字体是手写,而且还是古文呢?

这似乎听起来具有相当的难度!

梵蒂冈秘密档案馆(VaTIcan Secret Archives)可谓全球最伟大的历史藏品之一,但其珍藏的许多文件从未转录。一个名为 Codice RaTIo 项目,利用人工智能与光学字符识别(简称 OCR)软件的组合重现这些被忽视的文本,并将其重新呈现在世人面前。

这座恢宏的建筑坐落在梵蒂冈城墙之内,毗邻使徒图书馆、位于西斯廷大教堂北侧,拥有着可追溯于1200年之前的总长达53英里的书架。除了将MarTIn Luther逐出教会的《教皇诏书》之外,其中还包括苏格兰玛丽女王被处决之前发给教皇西克斯五世的函件。在规模与范围方面,其中的收藏几乎著称无与伦比。

然而,梵蒂冈秘密档案馆对现代学者却没多大现实意义。因为在这长达53英里的书架当中,只有极少数书页经过扫描以提供在线版本,这当中的一小部分转录为计算机文本以供内容搜索。如果我们打算阅读其它任何内容,则必须申请特殊的访问权限,一路前往罗马,并亲自动手翻开这些古籍。

传统 OCR 技术只适用于经过严格排版的文字,而对于字母之间缺少间隔空间(即脏分割)的手写卷宗形式则无法识别。对此, Codice RaTIo 项目利用拼图分割法将单词理解为一种单笔笔划,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。该软件的手写字母判断准确率已经高达96%。如果成功,这项技术还将被用于处理世界各地其它历史档案库当中数不胜数的其它记录文件。

利用拼图分割法让 OCR 识别连体字

由于传统OCR技术是把单词分割成一个个字母来识别的,所以对于这类连体字,OCR无法识别字母。有人想出了一个方案,直接让OCR去识别一个个的单词,但是,如何让OCR掌握成千上万的拉丁文单词呢?大概需要一个排的中世纪拉丁文专家来辨认不同单词的图形。

除了请专家辨认单词外,还有更简单的方法帮助OCR识别手写字母,只要找实习生就可以搞定了。

我们知道,无论中文还是英文,连体字中粗的部分是笔画,细的部分是笔尖移动造成的虚线,并不是笔画的一部分。根据这个原则,In Codice Ratio的专家们发明了新的方法——拼图分割法。拼图分割法改变了传统OCR把单词分成字母的传统方式,而是是把连在一起的单词按照笔画分隔开,在此之后,该软件会进一步进行字母绘制,并最终生成以下一系列拼图碎片:

这些拼图碎片本身作用不大,但该软件能够将其通过多种方式组合起来以生成可能的字母。具体来讲,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。

为了教会软件这项能力,研究人员们选择了不同寻常的导师——高中生。该团队在意大利的24所学校当中招募了一批高中生用于建立项目的记忆库。学生们在登录相关网站后,会看到如下图所示的三分屏幕界面:

之后,就要让识别系统判断对错:识别出的字母,哪些是真正的字母,哪些是虚线的误判。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除( 邮箱:macysun@21ic.com )。
换一批
延伸阅读

安森美将上海设立为大中华区总部,并公布任命中国区总经理的计划

关键字: 氮化镓 人工智能 数据中心

北京2026年3月29日 /美通社/ -- 3月26日至29日,中国医学装备大会暨医学装备展览会(CCDLM)在重庆悦来国际会议中心举行。作为体外诊断领域的代表企业之一,万泰生物携"智慧健康生态展"亮...

关键字: CCD LM 人工智能 自动化

交易总额最高可达约27.5亿美元,包括1.15亿美元首付款。 这项由人工智能驱动的合作包含一项全球独家许可,涵盖涉及多个治疗领域的系列项目。 上海2026年3月30日 /美通社/ -- 由生成式人工智能(...

关键字: 人工智能 ARMA 自动化技术 SI

北京2026年3月30日 /美通社/ -- 中国发展高层论坛2026年年会于3月22日至23日在北京召开,主题为"'十五五'的中国:高质量发展与共创新机遇"...

关键字: 可持续发展 人工智能 供应链 新能源汽车

香港2026年3月30日 /美通社/ -- 港深创新及科技园有限公司(简称“港深创科园公司”)今日举行“港深创科园培育计划启动礼暨科技日展览”,标志着园区首届培育计划正式启动。 港深创科园致力打造世界级产学研平台,促进创...

关键字: SI 人工智能 AI PS

深圳2026年3月31日 /美通社/ -- 3月30日,德胧集团在2026年度战略发布会上正式发布百达屋APP中的超级员工——"神灯AI",并同时发布"天干地支"客户体验进化模型,...

关键字: AI 人工智能 温度 AI技术

2026 年 3 月 30日,中国 – 服务多重电子应用领域、全球排名前列的半导体公司意法半导体(纽约证券交易所代码:STM),宣布扩展其800VDC功率转换解决方案组合,推出800VDC直转12V和800VDC直转6V...

关键字: 人工智能 数据中心 电源转换

深圳2026年3月27日 /美通社/ -- 3月25日,国际独立第三方检测、检验和认证机构德国莱茵TÜV(简称"TÜV莱茵")集团首席...

关键字: 人工智能 可持续发展 新能源 MICHAEL

北京2026年3月27日 /美通社/ -- 3月22日至23日,中国发展高层论坛2026年年会在北京隆重召开,本次年会以"'十五五'的中国:高质量发展与共创新机遇"为主题,汇聚全球跨国企业掌门人、行业...

关键字: CE 可持续发展 人工智能 研讨会

深圳2026年3月27日 /美通社/ -- 3月25日,国际独立第三方检测、检验和认证机构德国莱茵 TÜV大中华区(简称"TÜV莱茵"...

关键字: 人工智能 MICHAEL 工业机器人 进程
关闭