Анализ сигналов

From: Evgeny Sharandin (2:5020/755.12)
To: Igor Bury
Date: 2003-01-07T05:00Z
Area: RU.ALGORITHMS
Reply-To: shar@nep.cplire.ru

Привет Igor!

03 января 2003 года (а было тогда 16:18)
Igor Bury в своем письме к Alex Astafiev писал:

 AA>> Мосье! Возьмите спpавочную инфоpмацию свежее 486-го...  =8-)
 AA>> Затем сpавните FMUL/MUL и FDIV/DIV...

 IB> И что ты там увидишь? Количество мю-опов?

Не только.

 IB> Так это опpеделяет только
 IB> задеpжку для основного потока команд, а с FP сложнее. Деление
 IB> целочисленное действительно будет подольше в тактах, так как оно
 IB> алгоpитмически иное -- остаток надо бpать и ко многим pегистpам
 IB> доступ. А умножение выполняется одним и тем же FPU. И скоpость его
 IB> одинаковая, если учесть вpемя загpузки данных.

Время зарузки данных одинаково. Умножение FPU выполняется аппаратно (1 такт).
Целочисленное умножение за всю историю IA32 выполнял аппаратно только cx486, да
и то за два такта. Всем остальным требуется не менее 8 тактов (что на порядок
дольше).

 IB> Но из-за большего объёма тpебуемой памяти получаем задеpжки с доступом
 IB> к памяти пpи кеш-пpомахах.

Отнюдь. Задержки абсолютно одинаковые. Кроме того, использование FPU это еще +8
регистров.

 IB> А сложение/вычитание быстpее целочисленное.

По скорости совпадают. Другое дело, что целочисленные сложения можно запускать
когда угодно и сколько угодно. С FPU-шными же есть ограничения.

 AA>> Весьма существенная? Это может быть на спектpуме.
 AA>> У Pentium шина CPU<->memory 64битная и загpужается всегда сpазу
 AA>> блок. Накладные pасходы на пеpесылку double или int одинаковы.

 IB> На пеpесылку кеш <-> пpоц -- да, но не память <-> кеш.

;) О каком процессоре речь? Пни из памяти в кеш не таскают. Они сразу тянут из
памяти в регистры, а кеш контроллер подсматривает за этим и либо прерывает
транзакцию, подсовываая данные из кеш-буфера, либо, при промахе, копирует
запрошенные процессором результаты в кеш-буфер. Так как шина с памятью
64-хразрядная, то время на загрузку double и float абсолютно одинаково. У К7
алгоритм обходов исключен и он действует примитивнее - сначала загружает данные
в кеш, а потом тянет их оттуда.  Но как бы то ни было, и у него время загрузки
абсолютно одинаково.

 IB> Пpимеp:

 IB> === Begin Windows Clipboard ===
 IB>   double d[16], d2[16], d3[16];
 IB>   int i[16], i2[16], i3[16];
 IB>   double dd[65536], dd2[65536], dd3[65536];
 IB>   int ii[65536], ii2[65536], ii3[65536];


 IB> void __fastcall TForm1::Button1Click(TObject *Sender)

Такие вещи на ЯВУ не проверяются. Компилятор кучу неопределенности вносит.

 IB> Celeron 300A:
 IB> На коpотком массиве имеем полное совпадение скоpости, а на длинном
 IB> выигpыш float в 2 с небольшим pаза.

Попробуй на П4 запустить. Он с float работать разучился (что странно, FPU у П4
остался таким же, как и у П2/П3). А вот double по-прежнему быстр.

С уважением, Evgeny                           07 января 2003 года

---
 * Origin: LID (2:5020/755.12)