метод архивации

From: Roman Kukushkin (2:5025/37.216)
To: Vitaly Lugovsky
Date: 2003-01-11T17:46:03Z
Area: RU.ALGORITHMS
Как поживаете, Vitaly ?

 Среда Январь 08 2003 в 21:37 Vitaly Lugovsky писал Alexander Kuklev:

 VL>  Даже если данные - эти самые 20 мб русской болтовни, то всё равно
 VL> некорректно считать, что вся избыточность заключена только лишь в
 VL> повторениях. Я не вижу ни одного основания для подобных утверждений.
Если рассмотреть русский текст до определенного момента, то можно рассчитать вероятность появления в следующей позиции различных букв. Например, после последовательности "рассказыв" с вероятностью около 99% появляется буква 'a' (исключаются опечатки, случай в моем письме или подобные, или появление случайной последовательности именно этих букв).

 VL>  А КАК ты найдешь все эти закономерности? Почему выбран именно такой
 VL> способ устранения избыточности?
Марковские цепи знаешь? Ну вот. Алгоритмы с их использованием можно сделать и самообучающимися, тогда таблицу вероятностей хранить не придется. Конечно, на практике все равно мы полного сжатия не достигнем (слишком большой объем памяти и вычислительной работы потребуется), но, думаю, погрешность будет не более 2%

                C уважением, Roman Kukushkin.

---
 * Origin:  (2:5025/37.216)