35. Меры информации

Для теоретической информатики информация играет такую же роль, как вещество в физике. Веществу можно приписывать характеристики: массу, заряд, объем и т. д. Для информации также имеется набор характеристик, которые имеют единицы измерения.

Для измерения информации вводятся два параметра: количество информации I и объем данных VD. Эти параметры имеют различные выражения и интерпретацию в зависимости от формы адекватности.

Синтаксическая мера. Этот способ наиболее глубоко разработан в теории информации. Он оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На сегодня здесь наиболее известны следующие способы измерения информации:

- объемный;

- энтропийный;

- алгоритмический.

Объемный способ является самым простым и грубым для измерения информации. Объем данных VD в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес, и соответственно меняется единица измерения данных:

¾ в двоичной системе счисления - бит (двоичный разряд);

¾ в десятичной системе - дит (десятичный разряд);

Например, 10111011 имеет VD=8 бит, 275903 имеет VD=6 дит.

Энтропийный подход исходит из следующей модели. Получатель сообщения имеет некоторые представления о возможных наступлениях некоторых событий. Эти представления недостоверны и выражаются вероятностями, с которыми он ожидает то или иное событие. Общая мера неопределенности (энтропия) характеризуется некоторой математической зависимостью от этих вероятностей. Количество информации в сообщении определяется тем, насколько уменьшится эта мера после получения сообщения.

Пример. Колода из 32 карт перемешана. Достаем из нее одну карту, заранее считаем, что вероятности для выбора любой карты одинаковы. Априорную неопределенность можно представить числом 32, т. е. количеством равновероятных выборов. Если теперь определить количество информации как меру устраненной неопределенности, то полученную информацию можно приравнять к 32.

Однако в теории информации используется логарифмическая оценка:

Она характеризует число двоичных вопросов, на которые нужно отвечать «да» или «нет»:

1. Карта красной масти? 0 (нет)

2. Трефы? 0 (нет)

3. Одна из четырех старших? 1 (да)

4. Одна из двух старших? 0 (нет)

5. Дама? 1 (да)

Алгоритмический метод применяется согласно следующим рассуждениям: слово 010101…01 сложнее слова 0000…0, а слово, где 0 и 1 выбираются из эксперимента (например, бросания монеты – 0 (герб) и 1 (решка)) сложнее обоих предыдущих.

Компьютерная программа, производящая слово из одних нулей, крайне проста: печатать один и тот же символ. Для получения 0101…01 нужна чуть более сложная программа, печатающая символ, противоположный только что напечатанному. Случайная, не обладающая никакими закономерностями последовательность не может быть произведена никакой «короткой» программой. Длина программы, производящей хаотическую последовательность, должна быть близка к длине последней.

Таким образом, любому сообщению можно приписать количественную характеристику, отражающую сложность (размер) программы, которая позволяет ее воспроизвести.

Семантическая мера. Здесь наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившие сообщения.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система. В частности, одно из определений информации постулирует, что информация – это разница в тезаурусах:

Тезаурус (текста) – тезаурус (читателя) = информация.

Здесь тезаурусом назван весь тот запас знаний, которым обладает отправитель информации (в данном случае понимаемый текст) и получатель (или читатель, пользователь).

На рис.1 представлена зависимость количества семантической информации от тезауруса пользователя. Здесь Ic - количество семантической информации, Sp - тезаурус пользователя. Зависимость имеет два предельных случая: ; в этом случае пользователь не воспринимает, не понимает поступающую информацию; ; пользователь все знает, и поступающая информация ему не нужна.

Максимальное количество информации Ic потребитель приобретает при согласовании её смыслового содержания S со своим тезаурусом Sp (Sp=Sp opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в тезаурусе) сведения.

Количество семантической информации является величиной относительной. Одно и то же сообщение может иметь смысл для компетентного пользователя и быть бессмысленным для некомпетентного.

Коэффициент содержательности служит мерой количества семантической информации.

Прагматическая мера. Определяет ценность (полезность) информации; её целесообразно измерять в тех же единицах, что и целевую функцию.

< Предыдущая		Следующая >