Re: метод архивации
- From
- Andrew Ezhguroff ()
- To
- Alexander Kuklev
- Date
- 2003-01-08T16:45:51Z
- Area
- RU.ALGORITHMS
From: "Andrew Ezhguroff" <eandr@com2com.ru>
Привет! "Alexander Kuklev" <Alexander.Kuklev@p7517.f20.n5095.z2.fidonet.org>
сообщил(а):
AK> Имеется 20 мегабайт текстов приимущественно на русском языке.
AK> В них встречаются разные последовательности символов, но
AK> последовательность "кто" встречается весьма существенно чаще, чем
AK> "ъэы". Так вот, если эту вероятность учитывать, то 20 мегабайт легко
AK> превратятся в 5-8. Вот это, упрощенно, я пытаюсь сказать.
Т.е. ты предлагаешь статический словарь плюс статический хаффман? ИМХО,
достаточно малоэффективный вариант.
AK> Вы рассказываете о том, что такое компрессия данных. Я говорю о том,
AK> как надо хранить информацию известного типа, подченяющуюся ряду
AK> закономерностей так, чтобы она при этом занимала минимум места.
Ты говоришь не как, а что - кодировать подцепочки символов с учетом
вероятности их появления. А вот как - это обычно комбинация как минимум двух
алгоритмов - обрабатывающего общие подцепочки и генерирующего код переменной
длины. Учет общих подцепочек - это, например, вся группа алгоритмов LZ, PPM,
BWT+DC - все они обрабатывают повторяющиеся последовательности символов и
каждый из алгоритмов по своему... А код переменной длины - это либо хаффман,
либо арифметический кодер.
С уважением, Андрей.
--
Отправлено через сервер Форумы@mail.ru - http://talk.mail.ru
--- ifmail v.2.15dev5
* Origin: Talk.Mail.Ru (2:5020/400)