让绝迹语言“死而复生”？机器学习破译古老文字

作者：数据堂发布时间：2023-03-30

时至今日，已经有数十种失传已久的语言，考古学家和语言学家通常将这些绝迹语言视为“加密”的。也就是说，我们对它的语法和词汇了解不足，无法真正理解这些绝迹语言留下的文字含义。

大多数未被破译的失传语言都有两个特点，这对破译工作构成了重大挑战：第一，分割不够细致，没有被完全分割成“字符”；第二，不知道“近亲”是哪种，尚未确定最接近的已知语言。

近日，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员开发了一个能够自动解密死语言的新系统，在破译绝迹语言方面取得了突破。

项目负责人里贾纳·巴齐莱伊（Regina Barzilay）说：“我们可以确定文本中提到的所有人或地点，然后根据已知的历史证据进一步调查。”

“这些‘实体识别’方法在今天各种文本处理应用中普遍使用，并且具有很高的准确性。但研究的关键问题是，在没有任何古语训练数据的情况下，这项任务是否可行。”

据悉，该系统可以自动“解密”死语言的文本内涵，更具突破性的是，该系统还可以确定语言之间的关系。

Barzilay和MIT博士生罗嘉明开发了一种解密算法，该算法将语言声音嵌入多维空间，发音的差异反映在相应矢量间的距离中。

这种设计使得系统能够捕获语言变化的相关模式，并将其表达为计算约束。生成的模型可以将古代语言中的单词进行细分，并将其映射到相关语言中对应的单词。

Barzilay表示，该系统的设计参考了历史语言学的七项原则。根据历史语言学的理论，语言通常会以某些可预测的方式发展。语言很少会添加或删除整个发音，而是更有可能发生发音替换。

例如，母语中带有“P”的单词可能在其后代语言中演变为“B”，但是由于发音差异，不太可能变为“K”。

Barzilay和罗嘉明去年发表了一篇论文，该论文解密了Ugaritic和Linear B两种死语言。但是，与该项目的主要区别在于，研究人员知道Ugaritic和Linear B分别与希伯来语和希腊语的早期形式有关。

在最新的研究中，该系统已经证明伊比利亚语言与巴斯克语无关。该团队的最终目标是使该系统能够用几千个单词来解密数十年来已经绝迹的死语言。

在新的解密系统中，算法可以评估两种语言之间的接近度。对已知语言进行测试时，该算法甚至可以准确地识别语言族。

研究小组将他们的算法应用于伊比利亚语，并考虑到巴斯克语，以及可能性较小的罗曼语、日耳曼语、突厥语和乌拉尔语家族。虽然巴斯克语和拉丁语比其他语言更接近伊比利亚语，但仍无法确认其有关联。

未来，该团队希望扩展他们的工作，而不仅仅是将文本和已知语言中的相关单词联系起来——这种方法被称为“基于同源的破译”。该团队的新方法涉及单词语义识别，即使在不知道如何阅读这些单词的情况下依然适用。

参考：

1.https://news.mit.edu/2020/translating-lost-languages-using-machine-learning-1021

2.https://0xzx.com/202010212104897662.html

阅读更多内容

儿童产品智能化更是大势所趋，故事机、陪伴机器人、电话手表等，一路更新换代走来的儿童智能领域无疑是一个有着巨大需求的市场。行业高速发展，儿童智能机器人市场已达“千亿”级。智能音箱是人工智能产品在儿童消费市场成功的典范。根据2018年百度世界大会公布的数据，儿童用户群已占到智能音箱用户的20%。

疫情期间，口罩在全国抗疫中起到了关键作用。但在口罩成为每一位公民“标配”的同时，对诸如“刷脸”支付、高铁闸机身份认证等需要人脸识别的场景提出了挑战。