Loading...
机构名称:
¥ 3.0

可以使用不保留文本结构的模型或使用保留文本结构的模型来表示文本数据集。我们的差异是,根据数据集的性质,可以使用一个模型来保留文本结构的优势,而不是该模型的模型,而Viceversa则可以使用。关键是根据数据集本身确定表示术数据集的最佳方法。在这项工作中,我们建议通过基于字符串压缩组合文本失真和算法聚类来研究此问题。具体来说,作者先前开发的一种失真技术逐渐破坏文本结构。之后,基于字符串组合的聚类算法用于分析失真对文本中包含的信息的影响。在文本数据集和人工生成的数据集上进行了几项实验。结果表明,在强大的结构数据集中,随着文本结构被严格破坏,聚类结果恶化。此外,他们表明,使用一个可以选择左字节符号大小的压缩机有助于确定数据集的性质。最后,结果与基于多维投影的方法形成鲜明对比,并获得了类似的结论。

通过基于字符串压缩∗

通过基于字符串压缩∗PDF文件第1页

通过基于字符串压缩∗PDF文件第2页

通过基于字符串压缩∗PDF文件第3页

通过基于字符串压缩∗PDF文件第4页

通过基于字符串压缩∗PDF文件第5页