метод архивации
- From
- Roman Kukushkin (2:5025/37.216)
- To
- Vitaly Lugovsky
- Date
- 2003-01-11T17:46:03Z
- Area
- RU.ALGORITHMS
Как поживаете, Vitaly ?
Среда Январь 08 2003 в 21:37 Vitaly Lugovsky писал Alexander Kuklev:
VL> Даже если данные - эти самые 20 мб русской болтовни, то всё равно
VL> некорректно считать, что вся избыточность заключена только лишь в
VL> повторениях. Я не вижу ни одного основания для подобных утверждений.
Если рассмотреть русский текст до определенного момента, то можно рассчитать вероятность появления в следующей позиции различных букв. Например, после последовательности "рассказыв" с вероятностью около 99% появляется буква 'a' (исключаются опечатки, случай в моем письме или подобные, или появление случайной последовательности именно этих букв).
VL> А КАК ты найдешь все эти закономерности? Почему выбран именно такой
VL> способ устранения избыточности?
Марковские цепи знаешь? Ну вот. Алгоритмы с их использованием можно сделать и самообучающимися, тогда таблицу вероятностей хранить не придется. Конечно, на практике все равно мы полного сжатия не достигнем (слишком большой объем памяти и вычислительной работы потребуется), но, думаю, погрешность будет не более 2%
C уважением, Roman Kukushkin.
---
* Origin: (2:5025/37.216)