详细内容或原文请订阅后点击阅览
研究人员探索机器学习以自动化早期现代文本在道德上转录
在过去的二十年中,质量数字化已极大地改变了学术研究的景观。搜索来源的数字转录的能力为特定关键字节省了宝贵的时间,如果他们希望通过文本梳理,学者将不再局限于档案和库。
来源:英国物理学家网首页在过去的二十年中,质量数字化已极大地改变了学术研究的景观。搜索来源的数字转录的能力为特定关键字节省了宝贵的时间,如果他们希望通过文本梳理,学者将不再局限于档案和库。
但是,随着数字转录的传播,围绕实现这种可及性所需的人工的新问题。 16世纪杂志上的一篇新文章提出了研究人员获得数字化早期现代资源抄录的方法,同时避免了不道德的劳动实践。
文章 16世纪期刊“解锁现代现代印刷的数字化档案:早期现代印刷书籍的自动转录”,作者Serena Strecker和Kimberly Lifton的作者始于用于生产转录的两种软件的简短历史。光学特征识别(OCR)软件已证明自己非常适合转录19世纪后期和20世纪的作品,但在早期现代印刷中常见的不规则性使OCR不足以用于可靠的这些来源转录。
软件相反,早期的现代学者已转向手写文本识别(HTR)技术。领先的HTR软件Transkribus允许用户咨询公开可用的转录软件模型或培训自己的模型。在比较了从四个16世纪典范集合中选择的各种页面测试的各种HTR模型时,Strecker和Lifton强调了Transkribus促进根据五个基本步骤中获得学者所需源规范的专用转录模型的创建的能力。
培训数据 转录“只有坚持道德劳动实践,学者才能避免在学术等级中加剧不平等,或者使殖民主义的持久不平等持续下去。”
更多信息: