Re: метод архивации
- From
- Alexander Kuklev (2:5095/20.7517)
- To
- Vitaly Lugovsky
- Date
- 2003-01-09T03:52:14Z
- Area
- RU.ALGORITHMS
Здравствуйте, Vitaly !
Once (Wednesday January 08 2003) at 21:37 someone named Vitaly Lugovsky wrote to Alexander Kuklev. So, look here:
>> Ну, возьмем такой пример из жизни:
>> Имеется 20 мегабайт текстов приимущественно на русском языке.
>> В них встречаются разные последовательности символов, но
>> последовательность "кто" встречается весьма существенно чаще, чем "ъэы".
VL> Даже если данные - эти самые 20 мб русской болтовни, то всё равно
VL> некорректно считать, что вся избыточность заключена только лишь в
VL> повторениях. Я не вижу ни одного основания для подобных утверждений.
Художественная квота это. Я же там написал "упрощенно говоря".
Разумеется, избыточнотсь в тексте заключена далеко не только в неравновероятности встречи разных сочетаний. Но я это приводил, как
пример того, о чем говорю я. Если бы я стал вдаваться в подробности - я
бы ушел от темы.
>> Вы рассказываете о том, что такое компрессия данных. Я говорю о том,
>> как надо хранить информацию известного типа, подченяющуюся ряду
>> закономерностей так, чтобы она при этом занимала минимум места.
VL> А КАК ты найдешь все эти закономерности? Почему выбран именно такой
VL> способ устранения избыточности?
Если говорить о ДАННЫХ, а не о частном случае, с которым мне приходится иметь дело каждый день (и не мне одному), то это невероятно сложная задача.
А если именно о файлах с вполне четким форматом говорить - то ответ тривиален.
Нужно только знать описание формата файла, и иметь представление о математике
в объеме первого тома Кнута.
Если говрить о тексте - все закономерности найти, ИМХО, невозможно.
Даже если взять словарь русского языка, и разобрать текст на слова, и сохранять только номер слова в словаре, характеристики словоформы и значение слова в предложении и даже убрать неравновероятность, останется куча закономерностей, связаных со смыслом.
ДА, Я ПОНИМАЮ, что два малюсеньких частный случая. :-)
Но именно эти два частных случая имеют для сегодняшних программ сжатия огромное значение. Исключая графику и звук, практически всё, что сжимается,
является текстом или файлом, имеющим жесткий формат.
С уважением,
Alexander Kuklev
--- Golded 1.0.0 at Transparent Star
* Origin: Transparent Star (2:5095/20.7517)