Re: метод архивации

From: Andrew Ezhguroff ()
To: Alexander Kuklev
Date: 2003-01-08T16:45:51Z
Area: RU.ALGORITHMS
From: "Andrew Ezhguroff" <eandr@com2com.ru>

Привет! "Alexander Kuklev" <Alexander.Kuklev@p7517.f20.n5095.z2.fidonet.org>
сообщил(а):

 AK> Имеется 20 мегабайт текстов приимущественно на русском языке.
 AK> В них встречаются разные последовательности символов, но
 AK> последовательность "кто" встречается весьма существенно чаще, чем
 AK> "ъэы". Так вот, если эту вероятность учитывать, то 20 мегабайт легко
 AK> превратятся в 5-8. Вот это, упрощенно, я пытаюсь сказать.

Т.е. ты предлагаешь статический словарь плюс статический хаффман? ИМХО,
достаточно малоэффективный вариант.

 AK> Вы рассказываете о том, что такое компрессия данных. Я говорю о том,
 AK> как надо хранить информацию известного типа, подченяющуюся ряду
 AK> закономерностей так, чтобы она при этом занимала минимум места.

Ты говоришь не как, а что - кодировать подцепочки символов с учетом
вероятности их появления. А вот как - это обычно комбинация как минимум двух
алгоритмов - обрабатывающего общие подцепочки и генерирующего код переменной
длины. Учет общих подцепочек - это, например, вся группа алгоритмов LZ, PPM,
BWT+DC - все они обрабатывают повторяющиеся последовательности символов и
каждый из алгоритмов по своему... А код переменной длины - это либо хаффман,
либо арифметический кодер.

С уважением, Андрей.


-- 
Отправлено через сервер Форумы@mail.ru - http://talk.mail.ru
--- ifmail v.2.15dev5
 * Origin: Talk.Mail.Ru (2:5020/400)