Re: метод архивации

From: Vitaly Lugovsky (2:5080/1003)
To: Alexander Kuklev
Date: 2003-01-09T21:46:42Z
Area: RU.ALGORITHMS
From: Vitaly Lugovsky <vsl@ontil.ihep.su>

Alexander Kuklev <Alexander.Kuklev@p7517.f20.n5095.z2.fidonet.org> wrote:

>>> Ну, возьмем такой пример из жизни:
>>> Имеется 20 мегабайт текстов приимущественно на русском языке.
>>> В них встречаются разные последовательности символов, но
>>> последовательность "кто" встречается весьма существенно чаще, чем "ъэы".
> VL>  Даже если данные - эти самые 20 мб русской болтовни, то всё равно
> VL> некорректно считать, что вся избыточность заключена только лишь в
> VL> повторениях. Я не вижу ни одного основания для подобных утверждений.
> 
> Художественная квота это. Я же там написал "упрощенно говоря".

 А на фиг упрощённо говорить - если мы ищем общую постановку задачи?

> Разумеется, избыточнотсь в тексте заключена далеко не только в
> неравновероятности встречи разных сочетаний. Но я это приводил, как
> пример того, о чем говорю я. Если бы я стал вдаваться в подробности - я
> бы ушел от темы.

 Зачем эти примеры? Я же сразу сказал, что это частный случай.

> VL>  А КАК ты найдешь все эти закономерности? Почему выбран именно такой
> VL> способ устранения избыточности?
> 
> Если говорить о ДАННЫХ, а не о частном случае, с которым мне приходится иметь
> дело каждый день (и не мне одному), то это невероятно сложная задача.

 Но только она интерес и представляет.

> А если именно о файлах с вполне четким форматом говорить - то ответ тривиален.

 Нет. Даже если мы знаем формат - обнаружить избыточность не шибко просто.

> Если говрить о тексте - все закономерности найти, ИМХО, невозможно.

 Возможно.

--- ifmail v.2.15dev5
 * Origin: (http://news.cca.usart.ru/) USURT's FidoNET<-> (2:5080/1003@fidonet)