как их усреднять?

From
Evgenij Masherov (2:5020/175.2)
To
Zahar Kiselev ()
Date
2003-02-28T09:57:58Z
Area
RU.ALGORITHMS
From: "Evgenij Masherov" <EMasherow@nsi.ru>

Thu Feb 27 2003 22:49, Zahar Kiselev wrote to All:

 
 ZK> Некоторый датчик измеряет некоторую физическую величину, которую по
 ZK> условию задачи можно считать постоянной на всем промежутке измерений.
 ZK> После оцифровки сигнала получается 115 отсчетов(ну такое вот некруглое
 ZK> число:). Если изобразить их на графике в виде точек - видно, что где-то с
 ZK> десяток точек оказываются непонятно где(помехи...), а остальные
 ZK> "кучкуются" около некоторого разумного значения. Из этого надо вычислить
 ZK> значение измеренной величины. Если просто все точки сложить и поделить на
 ZK> количество(то среднее, которое в школьной математике применяется) - то
 ZK> вот те самые несколько "шальных" точек очень портят картинку. Знаю, что
 ZK> существуют и более интеллектуальные методы усреднения результатов
 ZK> измерений, автоматически отбрасывающие явно "левые" значения. Может ли
 ZK> кто-нибудь дать краткую консультацию по этому вопросу?

 Вообще это предмет робастного (robust) статистического оценивания.
Здесь есть два магистральных направления - либо сперва найти и обезвредить
"выбросы", а к тому, что осталось, применить стандартный метод (среднее в
данном случае), либо использовать метод, заведомо устойчивый к ним, пусть и
несколько менее эффективный в их отсутствие (эффективность здесь может
пониматься как в узко статистическом смысле - как дисперсия оценки, так и в
более широком).
В первом случае проверяют максимальные значения в выборке, пользуясь
каким-либо критерием для выбросов (например, сравнивая отклонение данного
наблюдения для среднего со среднеквадратическим отклонением, и считая
выбросом, если больше в два или три раза, есть и более тонкие и сложные
критерии) или просто отбрасывая определенную долю самых больших и самых малых
значений (также вместо отбрасывания можно заменять неким граничным значением -
т.н. "виндзоризация").
Примером метода второй группы является замена среднего арифметического
медианой - значением, находящимся посредине упорядоченной по величине выборки
(т.е. половина элементов больше медианы, половина меньше), такой метод
обладает колоссальной устойчивостью к ошибкам - даже при половине элементов,
являющихся сколь угодно большими выбросами, он дает осмысленный ответ,
эффективность же его снижена примерно на 25% (т.е. для той же точности надо
взять на 25% больше наблюдений). Есть и более тонкие методы, как правило,
вычислительно более емкие и не всегда сходящиеся, но с большей эффективностью.

Евгений Машеров АКА СанитарЖеня

--- ifmail v.2.15dev5
 * Origin: FidoNet Online - http://www.fido-online.com (2:5020/175.2)