Re: метод архивации

From
Alexander Kuklev (2:5095/20.7517)
To
Vitaly Lugovsky
Date
2003-01-09T03:52:14Z
Area
RU.ALGORITHMS
Здравствуйте, Vitaly !

Once (Wednesday January 08 2003) at 21:37 someone named Vitaly Lugovsky wrote to Alexander Kuklev. So, look here:

>> Ну, возьмем такой пример из жизни:
>> Имеется 20 мегабайт текстов приимущественно на русском языке.
>> В них встречаются разные последовательности символов, но
>> последовательность "кто" встречается весьма существенно чаще, чем "ъэы".
VL>  Даже если данные - эти самые 20 мб русской болтовни, то всё равно
VL> некорректно считать, что вся избыточность заключена только лишь в
VL> повторениях. Я не вижу ни одного основания для подобных утверждений.

Художественная квота это. Я же там написал "упрощенно говоря".
Разумеется, избыточнотсь в тексте заключена далеко не только в неравновероятности встречи разных сочетаний. Но я это приводил, как
пример того, о чем говорю я. Если бы я стал вдаваться в подробности - я
бы ушел от темы.

>> Вы рассказываете о том, что такое компрессия данных. Я говорю о том,
>> как надо хранить информацию известного типа, подченяющуюся ряду
>> закономерностей так, чтобы она при этом занимала минимум места.
VL>  А КАК ты найдешь все эти закономерности? Почему выбран именно такой
VL> способ устранения избыточности?

Если говорить о ДАННЫХ, а не о частном случае, с которым мне приходится иметь дело каждый день (и не мне одному), то это невероятно сложная задача.
А если именно о файлах с вполне четким форматом говорить - то ответ тривиален.
Нужно только знать описание формата файла, и иметь представление о математике
в объеме первого тома Кнута.
Если говрить о тексте - все закономерности найти, ИМХО, невозможно.
Даже если взять словарь русского языка, и разобрать текст на слова, и сохранять только номер слова в словаре, характеристики словоформы и значение слова в предложении и даже убрать неравновероятность, останется куча закономерностей, связаных со смыслом.
ДА, Я ПОНИМАЮ, что два малюсеньких частный случая. :-)
Но именно эти два частных случая имеют для сегодняшних программ сжатия огромное значение. Исключая графику и звук, практически всё, что сжимается,
является текстом или файлом, имеющим жесткий формат.

С уважением,
   Alexander Kuklev
--- Golded 1.0.0 at Transparent Star
 * Origin: Transparent Star (2:5095/20.7517)