Re: метод архивации
- From
- Vitaly Lugovsky (2:5080/1003)
- To
- Alexander Kuklev
- Date
- 2003-01-09T21:46:42Z
- Area
- RU.ALGORITHMS
From: Vitaly Lugovsky <vsl@ontil.ihep.su>
Alexander Kuklev <Alexander.Kuklev@p7517.f20.n5095.z2.fidonet.org> wrote:
>>> Ну, возьмем такой пример из жизни:
>>> Имеется 20 мегабайт текстов приимущественно на русском языке.
>>> В них встречаются разные последовательности символов, но
>>> последовательность "кто" встречается весьма существенно чаще, чем "ъэы".
> VL> Даже если данные - эти самые 20 мб русской болтовни, то всё равно
> VL> некорректно считать, что вся избыточность заключена только лишь в
> VL> повторениях. Я не вижу ни одного основания для подобных утверждений.
>
> Художественная квота это. Я же там написал "упрощенно говоря".
А на фиг упрощённо говорить - если мы ищем общую постановку задачи?
> Разумеется, избыточнотсь в тексте заключена далеко не только в
> неравновероятности встречи разных сочетаний. Но я это приводил, как
> пример того, о чем говорю я. Если бы я стал вдаваться в подробности - я
> бы ушел от темы.
Зачем эти примеры? Я же сразу сказал, что это частный случай.
> VL> А КАК ты найдешь все эти закономерности? Почему выбран именно такой
> VL> способ устранения избыточности?
>
> Если говорить о ДАННЫХ, а не о частном случае, с которым мне приходится иметь
> дело каждый день (и не мне одному), то это невероятно сложная задача.
Но только она интерес и представляет.
> А если именно о файлах с вполне четким форматом говорить - то ответ тривиален.
Нет. Даже если мы знаем формат - обнаружить избыточность не шибко просто.
> Если говрить о тексте - все закономерности найти, ИМХО, невозможно.
Возможно.
--- ifmail v.2.15dev5
* Origin: (http://news.cca.usart.ru/) USURT's FidoNET<-> (2:5080/1003@fidonet)