Построение и тестирование адекватности эконометрических моделей множественной регрессии: выбор функциональной формы модели. Построение математических моделей методом регрессионного анализа Математическое моделирование множественная регрессионная модель пр

С помощью метода наименьших квадратов.

Регрессионная модель объединяет широкий класс универсальных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются измеряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Нахождение параметров регрессионной модели называется обучением модели .

Недостатки регрессионного анализа: модели, имеющие слишком малую сложность, могут оказаться неточными, а модели, имеющие избыточную сложность, могут оказаться переобученными .

В управлении и планировании существует целый ряд типовых задач, которые можно переложить на плечи компьютера. Пользователь таких программных средств может даже и не знать глубоко математику, стоящую за применяемым аппаратом. Он должен представлять лишь суть решаемой проблемы, готовить и вводить в компьютер исходные данные, интерпретировать полученные результаты. Программным продуктом, который можно использовать для этих целей, является Ms Excel .

Ms Excel - это не просто электронная таблица с данными и формулами для вычислений. Это универсальная система обработки данных, которая может использоваться для анализа и представления данных в наглядной форме.

Одной из чаще всего используемых возможностей Excel является экстраполяция данных - например, для анализа имеющихся фактических данных, оценки тенденции их изменения и получения на этой основе краткосрочного прогноза на будущее. В этом случае используется линейная экстраполяция данных на основе наименьшего квадратичного отклонения - отыскивается линейная зависимость данных, такая, которая бы минимизировала сумму квадратов разностей между имеющимися фактическими данными и соответствующими значениями на прямой линейного тренда (интерполяционной или экстраполяционной зависимости). На основе найденной зависимости можно сделать разумное предположение об ожидаемых будущих значениях изучаемого ряда данных.

Решение задач планирования и управления постоянно требует учета зависимостей одних факторов от других.

Рассмотрим различные методы представления зависимостей.

Если зависимость между величинами удаётся представить в математической форме, то имеем математическую модель.


Математическая модель - это совокупность количественных характеристик некоторого объекта (процесса) и связей между ними, представленных на языке математики.

Математические модели могут быть представлены в виде формул, уравнений или систем уравнений. Например, зависимость времени падения тела на землю от первоначальной высоты описывается формулой . Рассмотрим примеры других способов представления зависимостей между величинами: табличного и графического . По результатам эксперимента мы составили таблицу и нарисовали график (рисунок 1).

Н (м) t (сек)
1,1 1,4 1,6 1,7 1,9 2,1 2,2 2,3 2,5

Рисунок1. Табличное и графическое представление данных.

Мы рассмотрели три способа отображения зависимости величин: функциональный (формула), табличный и графический. Но математической моделью процесса падения тела на землю можно назвать только формулу, т.к. формула универсальна. Таблица и диаграмма (график) констатируют факты, а математическая модель позволяет прогнозировать, предсказывать путем расчетов.

Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер. Однако, они верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.

График искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ёе график точно проходил через все данные точки (рисунок 2), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.

Отсюда следуют основные требования к искомой функции:

Она должна быть достаточно простой для использования её в дальнейших вычислениях;

График этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рисунок 3).

Рисунок 3. Два варианта построения графической зависимости по экспериментальным данным.

Полученную функцию, график которой приведен на рисунке 3(б), принято называть в статистике регрессионной моделью. Регрессионная модель - это функция, описывающая зависимость между количественными характеристиками сложных систем.

Получение регрессионной модели происходит в два этапа:

1. Подбор вида функции;

2. Вычисление параметров функции.

Чаще всего выбор производится среди следующих функций:

y = ax + b - линейная функция;

y = ax 2 + bx + c - квадратичная функция;

y = aln(x) + b - логарифмическая функция;

y = ae bx - экспоненциальная функция;

y = ax b - степенная функция.

Если Вы выбрали (сознательно или наугад) одну из предлагаемых функций, то следующим шагом нужно подобрать параметры (a ,b, c и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Для этого подходит метод наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у - координат всех экспериментальных точек от у - координат графика функции была бы минимальной.

Важно понимать следующее : методом наименьших квадратов по данному набору экспериментальных точек можно построить любую функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос - вопрос критерия соответствия. На рисунке 4 изображены 3 функции, построенные методом наименьших квадратов.

Рисунок 4

Данные рисунки получены с помощью Ms Excel. График регрессионной модели называется трендом (trend - направление, тенденция).

График линейной функции - это прямая. Полученная по методу МНК прямая отражает факт роста заболеваемости от концентрации угарного газа, но по этому графику трудно что - либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды - ведут себя очень правдоподобно.

На графиках присутствует ещё одна величина, полученная в результате построения трендов. Она обозначена как R 2 . В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной получится регрессионная модель. Коэффициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели неудачен. Чем R 2 ближе к 1, тем удачнее регрессионная модель.

Метод наименьших квадратов используется для вычисления параметров регрессионной модели. Этот метод содержится в математическом арсенале электронных таблиц.

Получив регрессионную математическую модель мы можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосфере угарный газ, то, рассчитав возможную концентрацию газа, можно предсказать, как это отразится на заболеваемости астмой жителей города.

Существуют два способа прогнозов по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это значение концентрации угарного газа - С), то это называется восстановлением значения .

Прогнозирование за пределами экспериментальных данных называется экстраполяцией.

Имея регрессионную модель, легко прогнозировать, производя расчеты с помощью электронной таблицы.

Табличный процессор дает возможность производить экстраполяцию графическим способом, продолжая тренд за пределы экспериментальных данных. Как это выглядит при использовании квадратичного тренда для С = 7 показано на рисунке 5.

Рисунок 5

В ряде случаев с экстраполяцией надо быть осторожным. Применимость всякой регрессионной модели ограничена, особенно за пределами экспериментальной области.

Список литературы.

1. Новиков Ф.А., Яценко А.Д.. Microsoft Office. С.-П.:БХВ-Петербург, 2002г. стр.449-458

2. Семакин И.Г., Хеннер Е.К. Информатика.11класс. М.: БИНОМ. Лаборатория знаний, 2003г. стр.102-117

Основной целью множественной регрессии является построение модели с большим числом факторов и определение при этом влияния каждого из факторов в отдельности на результат, а так же определение совокупного воздействия факторов на моделированный показатель.

Спецификация модели множественной регрессии включает в себя отбор фактора и выбор вида математической функции (выбор вида уравнения регрессии). Факторы, включаемые во множественную регрессию должны быть количественно измеримы и не должны быть интеркоррелированы и тем более находиться в точной функциональной связи (т.е. должны в меньшей степени влиять друг на друга, а в большей степени на результативный признак).

Включаемые во множественную регрессию факторы должны объяснять вариацию независимой переменной. Например, если строится модель с набором - факторов, то для нее находится значение показателя детерминации , который фиксирует долю объясненной вариации результативного признака за счет - факторов.

Влияние других неучтенных факторов в модели оценивается как соответствующей остаточной дисперсии .

При включении в модель дополнительного фактора значение показателя детерминации должно возрастать, а значение остаточной дисперсии должно уменьшиться. Если этого не происходит, то дополнительный фактор не улучшает модель и практически является лишним, причем введение такого фактора может привести к статистической не значимости параметров регрессии по - критерию Стьюдента.

Отбор факторов для множественной регрессии осуществляется в две стадии:

1. Подбираются факторы, исходя из сущности проблемы.

2. На основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты корреляции между объясняющими переменными , которые еще называют коэффициентами интеркорреляции, позволяют исключить из модели дублирующие факторы.

Две переменные и называют явно коллинеарными, если коэффициент корреляции .

Если переменные явно коллинеарны, то они находятся в сильной линейной зависимости.



При наличии явно коллинеарных переменных предпочтение отдается не фактору более тесно связанному с результатом, а фактору, который при этом имеет наименьшую тесноту связи с другими факторами.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллениарность факторов.

При использовании множественной регрессии может возникнуть мультиколлениарность фактов, т.е. более чем два фактора связаны между собой линейной зависимостью. В таких случаях менее надежным становится МНК при оценке отдельных факторов, результатом чего становится затруднение интерпретации параметров множественной регрессии как характеристик действия фактора в чистом виде. Параметры линейной регрессии теряют экономический смысл, оценки параметров ненадежны, возникают большие стандартные ошибки, которые при этом могут изменяться с изменением объема наблюдений, т.е. модель становится непригодной для анализа и прогнозирования экономической ситуации. Для оценки мультиколлениарности фактора используют следующие методы:

1. Определение матрицы парных коэффициентов корреляции между факторами, например, если задана линейная модель множественной регрессии , то определитель матрицы парных коэффициентов примет вид:

Если значение данного определителя равно 1

,

то факторы являются неколлинеарными между собой.

Если между факторами существует полная линейная зависимость, то все коэффициенты парной корреляции равны 1, в результате чего

.

2. Метод испытания гипотезы о независимости переменных. В этом случае нулевая гипотеза , доказано, что величина имеет приближенное распределение с числом степеней свободы .

Если , то нулевая гипотеза отклоняется.

Определяя и сравнивая между собой коэффициенты множественной детерминации фактора, используя в качестве зависимой переменной последовательно каждой из факторов можно определить факторы, ответственные за мультиколлениарность, т.е. фактор с наибольшим значением величины .

Существуют следующие способы преодоления сильной межфакторной корреляции:

1) исключение из модели одного или несколько данных;

2) преобразование факторов для уменьшения корреляции;

3) совмещение уравнения регрессии, которые будут отражать не только факторы, но и их взаимодействие;

4) переход уравнения приведенной формы и др.

При построении уравнения множественной регрессии одним из важнейших этапов является отбор факторов, включаемых в модель. Различные подходы к отбору факторов на основе показателей корреляции к различным методам, среди которых наиболее применимы:

1) Метод исключения – производится отсев данных;

2) Метод включения – вводят дополнительный фактор;

3) Шаговый регрессионный анализ – исключают ранее введенный фактор.

При отборе факторов применяют следующее правило: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится модель.

Параметр не подлежит экономической интерпретации. В степенной модели нелинейное уравнение множественной регрессии коэффициенты , ,…, являются коэффициентами эластичности, которые показывают насколько, в среднем, изменится результат при изменении соответствующего фактора на 1% при неизменном воздействии остальных факторов.

Модель множественной регрессии

Дана модель множественной регрессии:

Номер предприятия

Номер предприятия

Постановка задачи

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации.

5. С помощью частных -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после.

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Процесс построения модели множественной регрессии

Найдем средние квадратические отклонения признаков:

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии

необходимо воспользоваться готовыми формулами:

Рассчитаем сначала парные коэффициенты корреляции:

Таким образом, получили следующее уравнение множественной регрессии:

Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:

Т.е. уравнение будет выглядеть следующим образом:

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Вычисляем:

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,627% или 0,170% соответственно.

Таким образом, подтверждается большее влияние на результат фактора, чем фактора.

2. Коэффициенты парной корреляции мы уже нашли:

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т.к.). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить с помощью следующих формул:


Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 78,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами - на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 96%) детерминированность результата в модели факторами и.

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерий Фишера:

В нашем случае фактическое значение -критерия Фишера:

Получили, что (при), т.е. вероятность случайно получить такое значение -критерия не превышает допустимый уровень значимости. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи.

6. С помощью частных -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

Найдем и.

Получили, что. Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после, то результат расчета частного -критерия для будет иным. , т.е. вероятность его случайного формирования меньше принятого стандарта. Следовательно, значение частного -критерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора.

Общий вывод состоит в том, что множественная модель с факторами и с содержит неинформативный фактор. Если исключить фактор, то можно ограничиться уравнением парной регрессии:

Методы множественной линейной регрессии, которые мы обсуждаем, могут быть очень полезными, но также и очень опасными, если они неверно используются или интерпретируются. Прежде чем приступать к большой задаче с применением методов множественной регрессии, имеет смысл, насколько это возможно, предварительно спланировать всю работу применительно к конкретной цели и наметить контрольные мероприятия, проводимые по ходу дела. Такое планирование будет предметом данной главы. Прежде, однако, мы обсудим три основных типа математических моделей, часто используемые в науке:

1. Функциональная модель.

2. Модель для управления.

3. Модель для предсказания.

ФУНКЦИОНАЛЬНАЯ МОДЕЛЬ

Если в некоторой задаче известна «истинная» функциональная связь между откликом и предикторами, то экспериментатор в силах понять и предсказать отклик, да и управлять им 1. Однако в жизни редко встречаются ситуации, когда можно предложить подобную модель. Но даже и в этих случаях функциональные уравнения обычно очень сложны, трудны для понимания и применения и имеют чаще всего нелинейный вид. В наиболее сложных случаях может потребоваться численное интегрирование таких уравнений. Примеры нелинейных моделей упоминались в гл. 5, а их построение будет обсуждаться в гл. 10. Для таких моделей линейные регрессионные методы неприменимы или применимы только для аппроксимации истинных моделей в итеративных процедурах оценивания.

Модель для управления

Функциональная модель, даже если она известна полностью, не всегда пригодна для управления выходной переменной (откликом). Например, в задаче про пар, используемый на заводе, одна из наиболее важных переменных - наружная температура, а она

ничего лучшего, можно выбрать и линию поведения для дальнейшего экспериментирования, уточнив важные переменные, и, что очень полезно, отсеять несущественные переменные.

Вместе с тем применение множественной регрессии требует особой осторожности, чтобы избежать непонимания и неверных выводов. Организация схемы для решения задач с помощью методов множественного регрессионного анализа не только полезна, но и необходима.

Рис. 8.1. Блок-схема процедуры построения модели

Эта глава - только план, а любое использование предложенной или подобной схемы будет требовать специальной «настройки» на конкретную ситуацию.

Хотя приведенный ниже план предназначен для разработки предсказывающей математической модели, он является достаточно общим; им можно воспользоваться при построении как функциональных, так и управляющих моделей. Особое внимание обратим на задачи с «неуправляемыми данными». Схема делится на три стадии - планирование, разработку и использование. Блок-схема приведена на рис. 8.1, и в дальнейшем она будет детально обсуждена.

1. Основные определения и формулы

Множественная регрессия - регрессия между переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимые объясняющие переменные;

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов;

Число параметров при переменных

Основная цель множественной регрессии - построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Уравнение множественной линейной регрессии в случае независимых переменных имеет вид а в случае двух независимых переменных - (двухфакторное уравнение).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов . Строится система нормальных уравнений:

Решение этой системы позволяет получить оценки параметров регрессии с помощью метода определителей

где - определитель системы;

- частные определители, которые получаются путем замены соответствующего столбца матрицы определителя системы данными правой части системы.

Для двухфакторного уравнения коэффициенты множественной линейной регрессии можно вычислить по формулам:

Частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффекты влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности :

Средние коэффициентами эластичности показывают на сколько процентов в среднем изменится результат при изменении соответствующего фактора на 1%:

Их можно сравнивать друг с другом и соответственно ранжировать факторы по силе их воздействия на результат.

Тесноту совместного влияния факторов на результат оценивает коэффиц и ент (индекс) множественной корреляции :

Величина индекса множественной корреляции лежит в пределах от 0 до 1 и должна быть больше или равна максимальному парному индексу корреляции:

Чем ближе значение индекса множественной корреляции к 1, тем теснее связь результативного признака со всем набором исследуемых факторов.

Сравнивая индексы множественной и парной корреляции, можно сделать вывод о целесообразности (величина индекса множественной корреляции существенно отличается от индекса парной корреляции) включения в уравнение регрессии того или иного фактора.

При линейной зависимости совокупный коэффициент множественной ко р реляции определяется через матрицу парных коэффициентов корреляции:

где - определитель матрицы парных коэффициентов корреляции;

- определитель матрицы межфакторной корреляции.

Частны е коэффициент ы корреляции характеризуют тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, (частный коэффициент корреляции между и при фиксированном влиянии ), это означает, что определяется количественная мера линейной зависимости между и которая будет иметь место, если устранить влияние на эти признаки фактора

Частные коэффициенты корреляции, измеряющие влияние на фактора при неизменном уровне других факторов, можно определить как:

или по рекуррентной формуле:

Для двухфакторного уравнения:

или

Частные коэффициенты корреляции изменяются в пределах от -1 до +1.

Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции получится меньше, чем соответствующий парныйкоэффициент значит взаимосвязь признаков и в некоторой степени обусловлена воздействием на них фиксируемой переменной И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная ослабляет своим воздействием связь и

Порядок частного коэффициента корреляции определяется количеством факторов, влияние которых исключается. Например, - коэффициент частной корреляции первого порядка.

Зная частные коэффициенты корреляции (последовательно первого, второго и более высокого порядка), можно определить совокупный коэффициент мн о жественной корреляции :

Качество построенной модели в целом оценивает коэффициент (индекс) множественной детерминации , который рассчитывается как квадрат индекса множественной корреляции: Индекс множественной детерминации фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов. Влияние других, не учтенных в модели факторов, оценивается как

Если число параметров при близко к объему наблюдений, то коэффициент множественной корреляции приблизится к единице даже при слабой связи факторов с результатом. Для того чтобы не допустить возможногопреувеличения тесноты связи, используется скорректированный индекс множественной корреляции , который содержит поправку на число степеней свободы:

Чем больше величина тем сильнее различия и

Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным =--2.

Значимость уравнения множественной регрессии в целом , так же как и в парной регрессии, оценивается с помощью - критерия Фишера :

Мерой для оценки включения фактора в модель служит частный -критерий . В общем виде для фактора частный -критерий определяется как

Для двухфакторного уравнения частные -критерии имеют вид:

Если фактическое значение превышает табличное, то дополнительное включение фактора в модель статистически оправданно и коэффициент чистой регрессии при факторе статистически значим. Если же фактическое значение меньше табличного, то фактор нецелесообразно включать в модель, а коэффициент регрессии при данном факторе в этом случае статистически незначим.

Для оценки значимости коэффициентов чистой регрессии по -критерию Стьюдента используется формула:

где - коэффициент чистой регрессии при факторе

- средняя квадратическая (стандартная) ошибка коэффициента регрессии которая может быть определена по формуле:

При дополнительном включении в регрессию нового фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если это не так, то включаемый в анализ новый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по -критерию Стьюдента.

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

Для оценки мультиколлинеарности факторов может использоваться опред е литель матрицы между факторами . Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель, тем меньше мультиколлинеарность факторов.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это означает, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность . При нарушении гомоскедастичности выполняются неравенства

Наличие гетероскедастичности можно наглядно видеть из поля корреляции (рис. 9.22).

Рис. 9.22 . Примеры гетероскедастичности:

а) дисперсия остатков растет по мере увеличения

б) дисперсия остатков достигает максимальной величины при средних значениях переменной и уменьшается при минимальных и максимальных значениях

в) максимальная дисперсия остатков при малых значениях и дисперсия остатков однородна по мере увеличения значений

Для проверки выборки на гетероскедастичность можно использовать метод Гольдфельда-Квандта (при малом объеме выборки) или критерий Бартлетта (при большом объеме выборки).

Последовательность применения теста Гольдфельда-Квандта :

1) Упорядочить данные по убыванию той независимой переменной, относительно которой есть подозрение на гетероскедастичность.

2) Исключить из рассмотрения центральных наблюдений. При этом где - число оцениваемых параметров. Из экспериментальных расчетов для случая однофакторного уравнения регрессии рекомендовано при =30 принимать =8, а при =60 соответственно =16.

3) Разделить совокупность из наблюдений на две группы (соответственно с малыми и большими значениями фактора ) и определить по каждой из групп уравнение регрессии.

4) Вычислить остаточную сумму квадратов для первой и второй групп и найти их отношение где При выполнении нулевой гипотезы о гомоскедастичности отношение будет удовлетворять -критерию Фишера со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина превышает тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Если необходимо включить в модель факторы, имеющие два или более качественных уровней (пол, профессия, образование, климатические условия, принадлежность к определенному региону и т.д.), то им должны быть присвоены цифровые метки, т.е. качественные переменные преобразованы в количественные. Такого вида сконструированные переменные называют фиктивными (и с кусственными) переменными .

К оэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории к другой при неизменных значениях остальных параметров. Значимость влияния фиктивной переменной проверяется с помощью -критерия Стьюдента.

2. Решение типовых задач

Пример 9. 2. По 15 предприятиям отрасли (табл. 9.4) изучается зависимость затрат на выпуск продукции (тыс. ден. ед.) от объема произведенной продукции (тыс. ед.) и расходов на сырье (тыс. ден. ед). Необходимо:

1) Построить уравнение множественной линейной регрессии.

2) Вычислить и интерпретировать:

Средние коэффициенты эластичности;

Парные коэффициенты корреляции, оценить их значимость на уровне 0,05;

Частные коэффициенты корреляции;

Коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент детерминации.

3) Оценить надежность построенного уравнения регрессии и целесообразность включения фактора после фактора и после

Таблица 9.4

x 1

x 2

Решение:

1) В Excel составим вспомогательную таблицу рис. 9.23.

Рис. 9.23 . Расчетная таблица многофакторной регрессии.

С помощью встроенных функций вычислим: =345,5; =13838,89; =8515,78; =219,315; =9,37; =6558,08.

Затем найдем коэффициенты множественной линейной регрессии и оформим вывод результатов как на рис. 9.24.

Рис. 9.24 . Решение задачи в MS Excel

Для вычисления значения коэффициента используем формулы

Формулы для вычисления параметров заносим в ячейки Е 20 , Е 2 1, Е 2 2. Так длявычисления параметра b 1 в Е 20 поместим формулу =(B20*B24-B21*B22)/(B23*B24-B22^2) и получим 29,83. Аналогично получаем значения =0,301 и Коэффициент =-31,25 (рис. 9.25.).

Рис. 9.25 . Вычисление параметров уравнения множественной регрессии (в с т роке формул формула для расчета b 2) .

Уравнение множественной линейной регрессии примет вид:

31,25+29,83+0,301

Таким образом, при увеличении объема произведенной продукции на 1 тыс. ед. затраты на выпуск этой продукции в среднем увеличатся на 29,83 тыс. ден. ед., а при увеличении расходов на сырье на 1 тыс. ден. ед. затраты увеличатся в среднем на 0,301 тыс. ден. ед.

2) Для вычисления средних коэффициентов эластичности воспользуемся формулой: Вычисляем: =0,884 и =0,184. Т.е. увеличение только объема произведенной продукции (от своего среднего значения) или только расходов на сырье на 1% увеличивает в среднем затраты на выпуск продукции на 0,884% или 0,184% соответственно. Таким образом, фактор оказывает большее влияние на результат, чем фактор

Для вычисления парных коэффициентов корреляции воспользуемся функцией «КОРРЕЛ» рис. 9.26.

Рис. 9.26 . Вычисление парных коэффициентов корреляции

Значения парных коэффициентов корреляции указывают на весьма тесную связь с и на тесную связь с В то же время межфакторная связь очень сильная (=0,88>0,7), что говорит о том, что один из факторов является неинформативным, т.е. в модель необходимо включать или или

З начимост ь парных коэффициентов корреляции оценим с помощью -критерия Стьюдента. =2,1604 определяем с помощью встроенной статистической функции СТЬЮДРАСПОБР взяв =0,05 и =-2=13.

Фактическое значение -критерия Стьюдента для каждого парного коэффициента определим по формулам: . Результат расчета представлен на рис. 9.27.

Рис. 9.27 . Результат расчета фактических значений -критерия Стьюдента

Получим =12,278; =7,1896; =6,845.

Так как фактические значения -статистики превосходят табличные, то парные коэффициенты корреляции не случайно отличаются от нуля, а статистически значимы.

Получим =0,81; =0,34; =0,21. Таким образом, фактор оказывает более сильное влияние на результат, чем

При сравнении значений коэффициентов парной и частной корреляции приходим к выводу, что из-за сильной межфакторной связи коэффициенты парной и частной корреляции отличаются довольно значительно.

Коэффициент множественной корреляции

Следовательно, зависимость от и характеризуется как очень тесная, в которой =93% вариации затрат на выпуск продукции определяются вариацией учтенных в модели факторов: объема произведенной продукции и расходов на сырье. Прочие факторы, не включенные в модель, составляют соответственно 7% от общей вариации

Скорректированный коэффициент множественной детерминации =0,9182 указывает на тесную связь между результатом и признаками.

Рис. 9.28 . Результаты расчета частных коэффициентов корреляции и коэфф и циента множественной корреляции

3) Оценим надежность уравнения регрессии в целом с помощью -критерия Фишера. Вычислим . =3,8853 определяем взяв =0,05, =2, =15-2-1=12 помощью встроенной статистической функции FРАСПОБР с такими же параметрами.

Так как фактическое значение больше табличного, то с вероятностью 95% делаем заключение о статистической значимости уравнения множественной линейной регрессии в целом.

Оценим целесообразность включения фактора после фактора и после с помощью частного -критерия Фишера по формулам

; .

Для этого в ячейку B32 заносим формулу для расчета F x 1 «=(B28- H24^2)*(15-3)/(1-B28) », а в ячейку B 33 формулу для расчета F x 2 «=(B28-H23^2)*(15-3)/(1-B28) », результат вычисления F x 1 = 22,4127, F x 2 = 1,5958. Табличное значение критерия Фишера определим с помощью встроенной функции FРАСПОБР с параметрами =0,05, =1, =12 «=FРАСПОБР(0,05; 1 ;12) », результат - =4,747. Так как =22,4127>=4,747, а =1,5958<=4,747, то включение фактора в модель статистически оправдано и коэффициент чистой регрессии статистически значим, а дополнительное включение фактора после того, как уже введен фактор нецелесообразно (рис. 9.29).

Рис. 9.29 . Результаты расчета критерия Фишера

Низкое значение (немногим больше 1) свидетельствует о статистической незначимости прироста за счет включения в модель фактора после фактора Это означает, что парная регрессионная модель зависимости затрат на выпуск продукции от объема произведенной продукции является достаточно статистически значимой, надежной и что нет необходимости улучшать ее, включая дополнительный фактор (расходы на сырье).

3. Дополнительные сведения для решения задач с помощью MS Excel

Сводные данные основных характеристик для одного или нескольких массивов данных можно получить с помощью инструмента анализа данных Опис а тельная статистика . Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в ленте выбираем вкладку «Данные», в ней раздел «Анализ» (рис. 9.30.).

Рис. 9.30 . Вкладка данные диалоговое окно «Анализ данных»

2. В диалоговом окне «Анализ данных» выбрать Описательная стат и стика и нажать кнопку «ОК», в появившемся диалоговом окне заполните необходимые поля (рис. 9.31):

Рис. 9.31 . Диалоговое окно ввода параметров инструмента
« Описательная статистика »

Входной интервал - диапазон, содержащий данные результативного и объясняющих признаков;

Группирование - указать, как расположены данные (в столбцах или строках);

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Для получения информации Итоговой статистики, Уровня наде ж ности, -го наибольшего и наименьшего значений нужно установить соответствующие флажки в диалоговом окне.

Получаем следующую статистику (рис. 2.10).