手写历史文献的研究通常称为手稿研究,涉及系统地分析文献的内容、表面材料和笔迹。笔迹分析通常是最具挑战性的任务,它提供了对作者、写作风格、制作时间甚至文献地理位置的重要见解。提取、处理和广泛检查手稿中的手写文本以获得这些见解。但是,如果手动进行,这种分析非常耗费人力,并且容易出现偏差和错误。为了获得高效可靠的结果,计算机视觉 (CV)、模式识别 (PR) 和人工智能 (AI) 技术可用于笔迹分析。这些现代定量方法和统计分析为理解、修改和更新许多关键历史手稿的当前假设打开了一扇新的大门。
这项试点工作为 DSS 数字古文字学的未来实验提供了基准测量。这项研究强调了统计建模、迁移学习和数据增强的必要性,以解释手稿的多样化集合和不同作者群体的不同表现结果。将专门设计的形状特征与深度学习方法相结合以生成用于研究 DSS 的新经验数据的想法也应运而生。这项初步工作强调了复杂的字符提取技术对于稳健和准确的特征计算的重要性,主要是在处理更大的 IAA 图像数据集时。传统的基于强度的方法被发现不足以处理 IAA 集合中的各种图像类型,因此需要引入一种新的二值化技术 BiNet。
1 简介 2 1 .1 背景知识 ..........................4 1 .1 .1 死海古卷 (DSS) .....................4 1 .1 .2 手写识别 ......................6 1 .1 .3 多学科知识整合 ............6 1 .1 .4 作者身份识别 ..................。。。。。7 1 。1 .5 日期估计。。。。。。。。。。。。。。。。............8 1 .1 .6 模式识别技术 .........。。。。。。。。。。9 1.1.7 人工神经网络。。。。。。。。。。。。。。。。。。。。。。10 1 。2 研究动机。。。。。。。。。。。。。。。。。。。。。。。。。。。。。12 1.2.1 识别抄写员。。。。。。。。。。。。。。。。。。。。。。。。12 1.2.2 增强手写功能。。。。。。。。。。。。。。。。。。。。。。。13 1.2.3 双视角时间轴。。。。。。。。。。。。。。。。。。。。。。15 1.2.4 独创性、适应性、可解释性和可说明性。。。。15 1.3 论文提纲。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。16
关键词:历史文献、手写、数字化、数字化、文化遗产、保存。摘要:保存历史档案遗产不仅涉及保护这些宝贵文本的物理措施,还涉及提供数字保存。然而,仅仅将手稿和抄本数字化是不够的。还需要进一步的步骤:数字化其内容,即逐字转录扫描的文本。此过程可以准确保存其文本内容,从而更易于搜索信息和进行进一步分析。借助人工智能,特别是深度神经网络 (DNN),可以执行自动手写识别。在本研究中,我们使用了一种成熟的 DNN 类型的卷积循环神经网络 (CRNN) 来确定自动转录五个不同语言和时间段不同的历史数据集所需的最少标记数据量。结果表明,在几乎所有情况下,仅使用几百行标记文本就可以实现低于 10% 的字符错误率 (CER)。