500 = 13。2%。这个问题 - 最常见字母的频率是多少?- 是字母渗透不变统计量的一个示例。也就是说,它不取决于字母的名称:如果您应用了32个中的任何一个!可能对这些名称的排列(如在密码图中所做的)。其他字母遗传不变的统计数据包括:字母频率的熵;前十名最常见字母的总概率;频率至少1%的字母数量;等等。在任何长长的西班牙密码图中,这些统计数据大致相同。的确,知道它们会为您提供一个很好的方法来测试新的加密图是西班牙语还是其他语言。如Don Quixote示例中,假设我们形成一个随机的“ word”w∈{a,。。。,z} n通过独立采样n个字母;说,w 1 = z,w 2 = v,w 3 = s,。。。,w n = q。在此基础上,我们可能希望估算一些字母渗透不变的统计量(例如熵,最常见的字母的频率等)。重要的是要注意,有两个对称性。第一个对称性是样本的位置渗透变量;即,对称组S n的作用。由于n绘制是独立的,因此Z是第1、107和251个字母,或者V是第48,第133,第338和350位; Z发生3次,V发生了4次,等等。这就是为什么我们在示例中立即简化直方图的原因。第二个对称性是字母渗透的变量;即,对称组S D的作用,其中d = 32是字母数。这个对称性说,字母结果的名称无关紧要。换句话说,统计量仅取决于(多)概率集{p a,p b,。。。,p z}。鉴于此,我们可以通过消除字母标签,然后对行进行排序,从而进一步简化直方图。这会产生一个分类的直方图,如以下内容:
主要关键词