Математическое моделирование множественная регрессионная модель пример. Множественная регрессия

1) Уравнение многофакторной регрессии:

Экономическая интерпретация полученной модели:

Квартиры в районе А стоят 15,5% дешевле, чем в районе В. При увеличении общей площади на 1 стоимость квартиры возрастает на 1,25 тыс. $. При увеличении жилой площади на 1 стоимость квартиры увеличивается на 0,2 тыс. $. При увеличении площади кухни на 1 стоимость квартиры увеличивается на 0,8 тыс. $. При увеличении этажа на среднего и крайнего увеличивается на 0,05 тыс. $. При увеличении дома на кирпичный и панельный увеличивается на 24,8 тыс. $. При увеличении срока сдачи на 1 мес. Стоимость квартиры уменьшается 0,4 тыс. $.

Минимальный объем выборки:

т.е. для получения статистической значимой модели необходимо отобрать 45 квартир и собрать по ним необходимые данные.

  • 2) В модели использована 1 фиктивная переменная, наименование района, т.к. в построении модели участвуют 2 района - «а» и «б», которым присвоены количественные значения «1» и «2» соответственно.
  • 3) Проверим факторы на мультиколлинеарность:

Это условие выполняется для следующих пар факторов и, и и, : .

Рассмотрим первую пару мультиколлинеарных факторов. Для исключения переменных необходимо знать, как из каждой факторных признаков связан с результативным признаком Y. Эта зависимость отражается в последней строке матрицы парной корреляции. Итак, .

Найдены мультиколлинеарные факторы.

Для устранения мультиколлинеарности используется метод исключения переменных.

Будем исключать факторы, имеющие наименьшее значение.

Рассмотрим первую пару мультиколлинеарных факторов.

Итак, . Сравнение: 0,899 >

Вторая пара; , . 0,885 > 0,690. Следовательно, в модели множества включить, т.к. его связь с результативным признаком больше, чем у. Аналогично, рассматриваются следующие пары.

Предметом регрессионного анализа является исследование зависимости случайной величины от совокупности случайных и неслучайных величин. Регрессионный анализ позволяет на основе выборочных наблюдений создать математическую модель зависимости результативного признака от факторных признаков.

В зависимости от количества факторных признаков модель регрессии может быть парной и многомерной. Запишем в общем виде зависимость результативного признака от совместного и одновременного влияния факторных признаков
(- количество факторных признаков)

(3.28)

где
- функция регрессии, которая выражает объективную закономерную зависимость результативного признака от совместного влияния факторных признаков;- случайная величина, выражающая влияние неконтролируемых и неучтенных факторов, а также ошибок измерения.

Из выражения (3.28) имеем

(3.29)

т.е. - отклонение результативного признака от среднего значения, вычисленного по функции регрессии.

Оценкой функции регрессии является уравнение регрессии

Для парной линейной регрессии выражение (3.28) имеет вид:

(3.31)

где
- параметры функции регрессии. Запишем уравнение регрессии для этого случая

(3.32)

где
- оценки параметров функции регрессии - параметры уравнения регрессии или просто параметры регрессии.

Методика получения уравнений парной линейной регрессии приведена в параграфах 3.7 и 3.10.

Парный нелинейный регрессионный анализ

Пусть по виду корреляционного поля точек предполагается нелинейная зависимость результативного признака от факторного признака. Запишем в общем виде уравнение парной нелинейной регрессии

(3.33)

Требуется определить параметры регрессии с помощью метода наименьших квадратов, математическая запись которого имеет вид:

и надстройки «Поиск решения».

Размещение информации на рабочем месте ЭТ при определении параметров регрессии примера 3.5 с помощью надстройки “Поиск решения” представлено в таблице 3.15.

Таблица 3.15. Размещение информации

Значение целевой функции

F2: = СУММКВРАЗН (e4:e18; d4:d18);

E4: = СУММПРОИЗВ(a4:c4;$a$2:$c$2);

H2: =КОРРЕЛ(d4:d18;e4:e18);I2: =СРЗНАЧ(d4:d18).

Результаты решения представлены в таблице 3.16.

Таблица 3.16. Результаты расчета

Анализ результатов расчета. В итоге расчета получено:

      уравнение парной нелинейной регрессии


На рис.3.7 представлено уравнение парной нелинейной регрессии, полученное путем построения линии тренда. Анализ уравнений подтверждает их идентичность. Сравнение результатов расчета при парном линейном и нелинейном регрессионном анализе показывает, что они отличаются незначительно, т.е. для рассматриваемых признаков можно принять линейную модель регрессии.

Рис. 3.7. Уравнение линии тренда

Многомерный линейный регрессионный анализ

Обобщенная математическая модель многомерной линейной функции регрессии (3.28) имеет вид

где – количество факторных признаков;
– результативный признак;– отклонение;
– параметры функции регрессии.

Уравнение многомерной линейной регрессии для этого случая

Требование к факторным признакам, включаемым в математическую модель: факторы должны быть независимы друг от друга. Нарушение этого условия называется мультиколлинеарностью.

Коэффициенты уравнения регрессии получают с помощью инструмента «Регрессия» пакета анализа.

Анализ качества полученной модели проводится аналогично анализу парной линейной регрессии.

Методы множественной линейной регрессии, которые мы обсуждаем, могут быть очень полезными, но также и очень опасными, если они неверно используются или интерпретируются. Прежде чем приступать к большой задаче с применением методов множественной регрессии, имеет смысл, насколько это возможно, предварительно спланировать всю работу применительно к конкретной цели и наметить контрольные мероприятия, проводимые по ходу дела. Такое планирование будет предметом данной главы. Прежде, однако, мы обсудим три основных типа математических моделей, часто используемые в науке:

1. Функциональная модель.

2. Модель для управления.

3. Модель для предсказания.

ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ

Если в некоторой задаче известна «истинная» функциональная связь между откликом и предикторами, то экспериментатор в силах понять и предсказать отклик, да и управлять им 1. Однако в жизни редко встречаются ситуации, когда можно предложить подобную модель. Но даже и в этих случаях функциональные уравнения обычно очень сложны, трудны для понимания и применения и имеют чаще всего нелинейный вид. В наиболее сложных случаях может потребоваться численное интегрирование таких уравнений. Примеры нелинейных моделей упоминались в гл. 5, а их построение будет обсуждаться в гл. 10. Для таких моделей линейные регрессионные методы неприменимы или применимы только для аппроксимации истинных моделей в итеративных процедурах оценивания.

Модель для управления

Функциональная модель, даже если она известна полностью, не всегда пригодна для управления выходной переменной (откликом). Например, в задаче про пар, используемый на заводе, одна из наиболее важных переменных - наружная температура, а она

ничего лучшего, можно выбрать и линию поведения для дальнейшего экспериментирования, уточнив важные переменные, и, что очень полезно, отсеять несущественные переменные.

Вместе с тем применение множественной регрессии требует особой осторожности, чтобы избежать непонимания и неверных выводов. Организация схемы для решения задач с помощью методов множественного регрессионного анализа не только полезна, но и необходима.

Рис. 8.1. Блок-схема процедуры построения модели

Эта глава - только план, а любое использование предложенной или подобной схемы будет требовать специальной «настройки» на конкретную ситуацию.

Хотя приведенный ниже план предназначен для разработки предсказывающей математической модели, он является достаточно общим; им можно воспользоваться при построении как функциональных, так и управляющих моделей. Особое внимание обратим на задачи с «неуправляемыми данными». Схема делится на три стадии - планирование, разработку и использование. Блок-схема приведена на рис. 8.1, и в дальнейшем она будет детально обсуждена.

Пусть задан некоторый стохастический объект, входная и выходная координата которого Х и Y являются случайными величинами.

На Y влияет не только входная координата Х, но и случайная помеха Z (нестабильность режима работы объекта, стохастические воздействия среды, погрешности изменений Y и т.д.). Поэтому нельзя говорить о функциональной зависимости Y от Х. В подобных случаях следует говорить о наличии стохастической связи между переменными Х и Y объектов статики.

Случайные величины Х и Y являются зависимыми, если закон распределения вероятностей одной из них зависит от значения другой.

- условно интегральный закон распределения вероятностей;

- условная плотность распределения вероятностей;

Предположим, можно установить, что , тогда поведение сложной величины Y будет полностью характеризоваться условной плотностью распределения вероятностей .

Обозначим условные числовые характеристики Y:

- математическое ожидание;

Дисперсия;

Не зависит от х, а параметры функции плотности и зависит от того, какое значение х примет величина Х. Зависимость х называется регрессионной.

- регрессионная зависимость, показывает, как изменяется среднее значение Y при изменении Х. Если соединить плавными линиями точки, то получим линию регрессии. Эта линия есть статическая характеристика объекта.

Уравнением регрессии называют функцию f(x), описывающую линию регрессии. Уравнения регрессии классифицируют на линейные и нелинейные. При построении регрессионной модели объекта широко применяется пассивный метод идентификации.

Этот метод применяют при изучении статики объекта, уравнений помех, а также в тех случаях, когда недопустимы величины исходных возмущений на входе объекта. Пассивный метод идентификации основан на получении статической информации об объекте по данным его нормальной эксплуатации. Затем реализация входных х и выходных y величин обрабатываются т.о., чтобы определить регрессивную модель.



, где - вектор коэффициентов модели.

Определение уравнения регрессии состоит из 2 этапов:

1. выбор типа уравнения регрессии – осуществляется либо путем эмпирического выбора типа уравнения регрессии по виду корреляционного поля между входными и выходными величинами, либо путем теоретического изучения закономерности физического процесса, отражением которого является стохастическая связь между этими величинами. Иногда оба подхода используются в сочетании друг с другом.

2. расчет коэффициентов уравнения регрессии – чаще всего выполняется методом наименьших квадратов .

Следует отметить, что пассивный статический метод имеет ряд существенных недостатков по сравнению с активным методом:

1.получение модели объекта справедливо только в пределах используемого экспериментального статического материала.

2.трудно разделить эффекты от корреляции части входных величин многомерного объекта.

3.индивидуальные коэффициенты регрессии не имею какого-либо физического смысла.

4.не извлекается информация об ошибке опыта.

5.требуется получить большой объем экспериментальных данных и производить трудоемкие вычисления.

Указанные недостатки в значительной степени снижают ценность модели, полученной пассивным методом. К этому методу прибегают только в тех случаях, когда другие методы не могут быть использованы.

Предварительный анализ экспериментального статического материала составляет основную задачу корреляционного анализа при идентификации стохастического объекта. При этом суть корреляционного анализа сводится к оценке силы стохастической связи между случайными величинами Х и Y и по установлению вида зависимости между ними в виде уравнения регрессии. Чтобы предварительно определить наличие характерной связи между Х и Y наносят экстремальные точки и . На графике строят корреляционное поле.


а-сильноотрицательная корреляция

б-сильноположительная корреляция

в-слабоположительная корреляция

г,д-отсутствие корреляции

По тесноте группирования точек вокруг прямой возможно судить о корреляционной связи.

Корреляционное поле характеризует вид связи между Х и Y, т.е. наличие линейной и нелинейной зависимости:

Существует 3 вида корреляции:

1)линейная;

2)нелинейная;

3)множественная;

При линейной корреляции линейная регрессия апраксимируется уравнением прямой, при нелинейной – уравнением кривой. Множественная корреляция определяет связь между многими величинами и при этом используется уравнение множественной регрессии. Наиболее распространенной является линейная корреляция. Понятие корреляции дает возможность судить о том, насколько тесно находятся экспериментальные точки на апраскимированной кривой линии регрессии.

Если регрессия определяет предполагаемые соотношения между переменными, то корреляция показывает, насколько хорошо это соотношение отражает действительность.

Задача стохастического объекта ставится таким образом: по данным выборки объема n оценить силу (тесноту) корреляционной связи между Х и Y, найти уравнение регрессии и оценить допустимую ошибку.

Компьютер