在输入端,semantha ® 必须先读取文档并将其传输到内部数据结构中。如果数据以半结构化形式提供,例如在 Word 文档中,semantha ® 会使用现有文档结构,例如按标题划分章节。如果输入数据以不太结构化的形式提供,例如在 PDF 文档中,semantha ® 不仅会访问文本内容,还会访问视觉属性(元素 Ir - 图像识别)。例如,必须单独识别和评估表格,或者必须跳过插图以及页眉和页脚中的文本(即不分配给连续文本);同时,文本的视觉属性用于得出有关扩展文档结构的结论(例如识别标题和旁注)。这种准备是必要的,因为现实世界的用例不仅限于“技术上美观”的文件格式。结构化文件格式,如 XML 方言,也可以用作数据格式。