(например, русский алфавит). Для любого s ∈ A и любого натурального
k, обозначим через s
W
(k) количество слов из W , имеющих на k-ом месте
букву s. Совокупность чисел {s
W
(k) | s ∈ A, k ∈ N} назовем букво-
местным распределением словаря W . Частотой буквы s на позиции k
назовем отношение
s
W
(k)
|W |
, где |W | — число слов в W .
И при любом натуральном k совокупность частот {
s
W
(k)
|W |
| s ∈ A}
назовем частотным распределением k-ой позиции словаря W . Частотные
распределения позиций — это единственная информация на основании
которой мы должны сделать выбор. То есть нам нужно определить информативность
любого частотного распределения, с тем чтобы выбрать наиболее информативную
позицию. И именно, эту позицию и следует выбрать в игре в слова.
Информативность равномерных распределений Предположим,
например, что на некоторой позиции словаря все слова имеют одну и ту
же букву. Ясно, что в этом случае бессмысленно просить открыть эту
позицию, ведь открывая ее мы не получаем новой информации — мы
заранее знали, что там стоит.
Предположим, что на k-ом месте встречаются ровно две буквы алфавита,
причем ровно у половины слов одна, а у другой половины — другая.
Ясно, что информация, которую содержит в данном случае k-ая позиция
равна одному биту. Знание k-ой позиции ровно вдвое облегчает задачу
идентификации слова, поскольку оно ровно вдвое сужает область поиска.
Если же на k-ом месте встречаются поровну n букв, то, чем больше n
— тем больше информации несет позиция. При этом логично предположить,
что количество информации k-ой позиции выражается формулой Хартли:
то есть равно log
2
n.
Отождествление символов алфавита Пусть частотное распределение
первой позиции имеет вид n, n, 2n. То есть на данной позиции встречаются
лишь три буквы скажем a, b, c, причем одна из них — c встречается в
половине слов, а две другие в четверти слов. Сколько в этом случае
информации несет первая позиция? Можно попытаться ответить на этот
вопрос следующим образом: выяснение того какая из трех букв стоит на
третьей позиции можно представить себе как ответ на два вопроса типа
"да-нет". Первый вопрос таков: стоит ли на первом месте c? Второй,
в случае отрицательного ответа на первый стоит ли на первом месте
b?. Тогда ответ на первый вопрос дает ровно один бит информации, в
то время как ответ на второй тоже дает ровно один бит информации,
но второй вопрос задается лишь в половине случаев, поэтому логично
считать, что количество информации, даваемое первой позицией равно
в этом случае 1.5 бита.
Подразделение алфавита Рассмотрим теперь распределение вида
n, 2n. Давайте произвольным образом поделим вторую букву на две
половины, со штрихом и без штриха. У нас увеличиться алфавит и
распределение первой позиции примет вид n, n, n. Так что информативность
получившегося распределения нам уже известна. По Хартли она равна
log
2
3. Возврат к старому распределению означает потерю 1 бита информации
для 2/3 случаев. То есть информативность исходного распределения
равна log
2
3 −
2
3
.
5