首页>国内 > 正文

AI破解古文字登Nature封面：修复缺失文字，精确地理位置书写时间

2022-03-10 15:06:06来源：量子位

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

最新一期的Nature封面，AI再度来到舞台中央，这一次是在破译古文字方面立功了。

这是一种基于Transformer架构的方法，由DeepMind、谷歌、牛津大学等多家研究机构联合开发。

在单独修复受损文本时，这种方法能达到62%的准确率。

在实际应用中，历史学家单独破译某块古希腊石碑的准确率本来只有25%，但在使用这一方法后一举提升了近乎3倍，达到了72%。

不仅能修复文字，这一方法在地理归属的任务上也有71%的准确率，还能将古文字的书写日期精确到30年以内。

目前，这一方法已经引起了不小的讨论热度：

现在已经有可以在线解析古希腊文字的网页版，架构方法也已开源。

Transformer破译古文字

这是一个叫做Ithaca的架构，以荷马史诗《奥德赛》中的希腊岛屿命名。

Ithaca架构中的注意力机制能够通过串联输入的单个字符、完整单词的表征与顺序位置来了解输入文本的每一部分的位置，最终权衡不同的输入对模型决策过程的影响。

完整架构由多个Transformer块组成，每个Transformer块都输出一个经过处理的表征序列（Sequence of Processed Representations），其长度即输入字符的数量。

其输入随后被传递给三个分别负责文字修复、地理归属、时间归属的任务头，每个头都由一个前馈的神经网络组成，专门负责各自任务的训练。

在文字修复任务中，Ithaca会提供20个按概率排列的解析结果预测：

地理归属的确定上，则会依据古历史学中的84个区域中对输入文本进行分类，将可能的区域预测类别通过地图和柱状图展现：

日期归属任务同样也通过分布预测的柱状图来展示。

如下图所示，公元前300-250年的日期10年一组，被表示为5个概率相同的范围，而公元前305年的铭文将以100%的概率被分配到公元前300-310年的十年组：

历史学家的AI助手

研究人员分别将Ithaca与历史学家、同类AI方法Pythia、以及Ithaca与历史学家合作等不同破解古文字的方法做了对比。

字错率（CER）总是越低越好，在文字修复任务上，Ithaca的字错率和准确率都最好，如果与历史学家合作时，效果还将再次提升。

在论文的最后，研究人员表示，研究方法适用于手稿学、钱币学和纸草学等所有与古代文本相关的学科，也适用于古代、现代的任何语言。

目前，这一方法已经投入了实际使用，比如在雅典时期颁布的某个重要法令的碑文的日期确认上，历史学家们之前认为是在公元前446/5年之前书写的。

而Ithaca与历史学家一起，将这一日期更新到了公元前424/3 年：

Ithaca现在提供了在线试用的途径，登录官网，在方框中中输入古希腊铭文，将缺少的字符标记为破折号（-)），将预测的字符标记为问号（?）。

每次查询最多可以预测10个连续或非连续的问号，点击查询后将在下方显示文本缺失的字符，并将其归属到原来的地点和时间：

作者介绍

研究由DeepMind、威尼斯卡福斯卡里大学（Ca’ Foscari University of Venice）、哈佛大学、雅典经商大学(Athens University of Economics and Business)、谷歌几家AI团队合作开发。

论文有两位共同一作，其中annis Assael为DeepMind的AI部门的研究员，硕博都毕业于牛津大学，同时也是福布斯“30岁以下30名欧洲杰出科学家”之一：

共同一作Thea Sommerschield则是一位历史学家，目前任威尼斯佛斯卡里大学的人文科学院，以及哈佛大学希腊研究中心的研究员，主要研究领域是将机器学习应用于研究古代地中海的书面文化。

论文：

https://www.nature.com/articles/s41586-022-04448-z

开源链接：

https://github.com/DeepMind/ithaca

在线试用：

https://ithaca.DeepMind.com/?job=eyJyZXF1ZXN0SUQiOiJmYzUwNGY0NWNhZjJjZWMxZjIxZDA4YWVjNTdkMjEzMSIsImF0dHJpYnV0aW9uIjp0cnVlLCJyZXN0b3JhdGlvbiI6dHJ1ZX0%3D

关键词：历史学家哈佛大学输入文本研究人员牛津大学

AI破解古文字登Nature封面：修复缺失文字，精确地理位置书写时间

相关新闻

中山外贸展现出较强韧性前三季度全市外贸进出口2187.9亿元

做一个简易的配置中心，顺带还给整合到了SpringCloud

为什么JSON.parse会损坏大数字，如何解决这个问题？

在任期第一年每位CIO都必须完成的12件事

一次服务器非法重启后导致的故障排查记录

如何在Linux中使用xargs命令

聊聊国产数据库TiDB相关知识，你学会了吗？

什么是 CDN 缓存命中率以及如何计算和优化它？

在传统运维监控系统中加入新的预警能力

Kotlin Flow响应式编程，基础知识入门

程序员应如何理解Reactor模式？

一文掌握所有命令行，包括73个“冷门但有用”的技巧｜GitHub 11万标星之作

一文了解云计算的基本指南

LeCun转推，PyTorch GPU内存分配有了火焰图可视化工具

如何提高无线路由器的安全性

聚焦

IT

科技