Регрессия (математика)
Эту страницу предлагается объединить со страницами Регрессионный анализ и Условное математическое ожидание. |
Регре́ссия (лат. regressio — обратное движение, отход) в теории вероятностей и математической статистике — односторонняя стохастическая зависимость, устанавливающая соответствие между случайными переменными[1], то есть математическое выражение, отражающее связь между зависимой переменной у и независимыми переменными х при условии, что это выражение будет иметь статистическую значимость. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y. Если при каждом значении наблюдается значений yi1…yini величины y, то зависимость средних арифметических от и является регрессией в статистическом понимании этого термина[2].
История
правитьЭтот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.
Описание
правитьДопустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции
В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть ни что иное как условное математическое ожидание случайной переменной Y при условии, что другая случайная переменная X приняла значение x. Если, например, пара (X, Y) имеет двумерное нормальное распределение с E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ, то можно показать, что условное распределение Y при X=x также будет нормальным с математическим ожиданием, равным
В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения — это линейная аппроксимация истинного уравнения регрессии.
В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии[3]. Эти проблемы рассматриваются в рамках регрессионного анализа.
Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, где u(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.
Линейная регрессия
правитьПредставим зависимость y от x в виде линейной модели первого порядка:
Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i=1, …, n. Таким образом мы можем записать:
где означает предсказанное моделью значение y при данном x, b0 и b1 — выборочные оценки параметров модели. Определим также — значение ошибки аппроксимации для -го наблюдения.
Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[4][5].
Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:
здесь средние значения определяются как обычно: , и se2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ2 в том случае, если модель верна.
Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: . Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член , то прямая проходит через начало координат и оценка углового коэффициента равна
- ,
а её стандартной ошибки
Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b0 и b1. Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:
Теперь можно вычислить -процентный доверительный интервал для значения уравнения регрессии в точке x:
- ,
где t(1−α/2, n−2) — t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:
Здесь m — кратность измерения y при данном x. И -процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:
- .
На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.
Еще немного статистики
правитьМожно строго доказать, что, если условное матожидание некоторой двумерной случайной величины (X, Y) является линейной функцией от , то это условное матожидание обязательно представимо в виде , где E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ.
Более того, для уже упомянутой ранее линейной модели , где и — независимые случайные величины, а имеет нулевое матожидание (и произвольное распределение), можно доказать, что . Тогда с помощью указанного ранее равенства можно получить формулы для и : ,
.
Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами и , можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.
Примечания
править- ↑ Фёрстер Э., Рёнц Б., Методы корреляционного и регрессионного анализа, 1983, с. 15.
- ↑ Регрессия // Большая советская энциклопедия : [в 30 т.] / гл. ред. А. М. Прохоров. — 3-е изд. — М. : Советская энциклопедия, 1969—1978.
- ↑ Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3
- ↑ Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)
- ↑ Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8
Литература
править- Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов. — М.: Финансы и статистика, 1983. — 304 с. — (Библиотечка иностранных книг для экономистов и статистиков).