Как повысить r квадрат в модели
Перейти к содержимому

Как повысить r квадрат в модели

  • автор:

Оценка R2 в машинном обучении

Оценка R2 – это один из показателей оценки эффективности моделей машинного обучения на основе регрессии. Она также известна как коэффициент детерминации. Если вы хотите узнать, как оценить производительность модели машинного обучения, используя оценку R в квадрате, эта статья для вас. В этой статье я расскажу вам об оценке R2 в машинном обучении и ее реализации с использованием Python.

Оценка R2

Оценка R2 – очень важный показатель, который используется для оценки производительности модели машинного обучения на основе регрессии. Он произносится как R в квадрате и также известен как коэффициент детерминации. Суть его работы заключается в измерении количества отклонений в прогнозах, объясненных набором данных. Проще говоря, это разница между выборками в наборе данных и прогнозами, сделанными моделью.

Если вы никогда не использовали оценку R в квадрате при оценке производительности модели машинного обучения на основе регрессии, вы можете узнать больше о ее реализации с помощью Python ниже.

Оценка R2 с использованием Python

Надеюсь, теперь вы понимаете, что такое оценка R2 в машинном обучении. Теперь давайте посмотрим, как рассчитать оценку R2 модели машинного обучения с помощью Python:

import numpy as np import pandas as pd from sklearn.linear_model import LinearRegression from sklearn.utils import shuffle data = pd.read_csv("https://biconsult.ru/img/datascience-ml-ai/student-mat.csv") data = data[["G1", "G2", "G3", "studytime", "failures", "absences"]] predict = "G3" x = np.array(data.drop([predict], 1)) y = np.array(data[predict]) from sklearn.model_selection import train_test_split xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.2) linear_regression = LinearRegression() linear_regression.fit(xtrain, ytrain) predictions = linear_regression.predict(xtest) # Calculation of R2 Score from sklearn.model_selection import cross_val_score print(cross_val_score(linear_regression, x, y, cv=10, scoring="r2").mean())

Результат:

0.8153194100953483

В приведенном выше коде я сначала обучил модель машинного обучения с помощью алгоритма линейной регрессии, а затем вычислил ее результат в квадрате. Показатель модели R2, обученной здесь, составили 0,81, и это неплохо. Если значение оценки R в квадрате равно 1, это означает, что модель идеальна, а если ее значение равно 0, это означает, что модель будет плохо работать с неизвестным набором данных. Это также означает, что чем ближе значение оценки R в квадрате к 1, тем точнее обучается модель.

Резюме

Вот как вы можете реализовать коэффициент детерминации с помощью Python для оценки производительности модели машинного обучения на основе регрессии. Если значение R2 равно 1, это означает, что модель идеальна, а если ее значение равно 0, это означает, что модель будет плохо работать с неизвестным набором данных. Надеюсь, вам понравилась эта статья об оценке R в квадрате в машинном обучении и ее реализации с использованием Python.

Отбор переменных в моделях линейной регрессии

В статистике и машинном обучении задача отбора переменных (признаков, атрибутов, предикторов) для построения аналитической модели заключается в выделении среди всех признаков исходного набора данных, некоторого их подмножества, обеспечивающего лучшее качество модели.

Введение

В анализе данных под термином «отбор переменных» понимают процесс выбора из всего множества признаков, доступных в наборе данных, некоторого их подмножества, содержащего только наиболее значимые с точки зрения решения задачи признаки, которые и будут использованы в модели в качестве переменных.

Значимость здесь понимается в двух аспектах: релевантность и избыточность. Первый — признаки, используемые для построения модели, должны в достаточной степени влиять на зависимую переменную и отражать зависимости и закономерности предметной области. Второй — признаки не должны быть коррелированны, т.е. нести одну и ту же информацию (например, цены в долларах и в рублях).

Особенно эта проблема актуальна для моделей линейной регрессии, где незначимые и избыточные переменные не только увеличивают размерность задачи без повышения качества решения, но и снижают устойчивость модели.

Цели и задачи отбора переменных

Реальные бизнес-процессы описываются большим числом признаков. Поэтому предсказательные модели для этих бизнес-процессов могут содержать большое число переменных. При построении модели перед аналитиком возникает вопрос: нужно ли включать в модель в качестве переменных все доступные признаки и если нет, то сколько и какие следует использовать.

Рекомендации здесь неоднозначны. С одной стороны чем больше переменных используется при построении модели, тем больше информации привлекается, и тем более точной и адекватной ожидается модель. С другой стороны, при увеличении размерности пространства признаков растёт вычислительная сложность и сокращается интерпретируемость модели.

Таким образом, процедура отбора признаков решает следующие задачи:

  1. Упрощение моделей с целью улучшения их интерпретируемости.
  2. Сокращение размерности пространства признаков.
  3. Уменьшение временных и вычислительных затрат на построение и эксплуатацию модели.
  4. Повышение обобщающей способности модели и борьба с переобучением.

В основе идеи отбора признаков лежит понимание того, что не все обучающие данные являются полезными: они могут содержать избыточные и незначащие (нерелевантные) признаки, которые могут быть удалены без существенной потери информации и ухудшения качества модели. При этом даже значимый признак может оказаться избыточным, если коррелирует с другим значимым признаком.

Технология отбора признаков основана на формировании подмножеств из общего числа признаков и вычисления для каждого из них некоторой оценки качества. Простейшей из таких оценок является ошибка модели: выбирается тот набор признаков, который минимизирует ошибку. Однако на практике этот подход реализуем только для задач небольшой размерности, поскольку для большого числа признаков формируется огромное число подмножеств, которое требуется проверить.

Выделяют четыре класса методов отбора признаков:

  1. Обёрточные (wrapper) методы — используют предсказательное моделирование для оценивания подмножеств признаков. Каждое подмножество используется для обучения модели, а затем модель проверяется на тестовом множестве. Лучшим принимается то подмножество признаков, для которого количество ошибок минимально. Несмотря на то, что как отмечалось выше, данный метод требователен к вычислительным ресурсом, он позволяет получить наилучший результат для конкретного вида задачи и аналитической модели. Кроме этого, обёрточные методы склонны к переобучению. Рассмотренные в статье методы относятся именно к этой категории.
  2. Методы фильтрации используют косвенные меры качества модели вместо ошибки, например корреляцию между входными переменными и выходной. В простейшем случае для каждой входной переменной вычисляется коэффициент корреляции с выходной, и исключаются те переменные, для которых он ниже заданного порога. Таким образом формируется своего рода фильтр, которые пропускает переменные с сильной корреляцией относительно выходной, и «подавляют» со слабой. Методы фильтрации менее требовательны к вычислительным ресурсам, чем обёрточные методы, но являются общими и не ориентированы на конкретный вид модели, поэтому обычно показывают несколько худшие результаты.
  3. Встроенные (embedded) методы. Представляют наиболее универсальную группу методов, в которых отбор признаков рассматривается как часть процесса построения модели. Встроенные методы специфичны для конкретной модели.
  4. Рекурсивные методы отбора (Recursive Feature Elimination — RFE). В этом случае ищутся не подмножества признаков, а каждому признаку присваиваются веса, по которым они ранжируются. Затем исключаются признаки с малыми весами. Присвоение весов производится с помощью специальной модели-оценщика, которая сначала обучается на начальном наборе признаков. Затем признаки с малыми весами исключаются и обучение производится снова, в результате чего веса оставшихся признаков вновь меняются. И так рекурсивно производится до тех пор, пока не будет получен оптимальный набор признаков.

Постановка задачи

Зададим признаковое описание объекта с использованием следующих обозначений. Каждая независимая переменная представлена вектором-столбцом x_j=(x_. x_) , а зависимая y_i=(y_. y_) . Тогда

или в матричном представлении

где X — матрица признаков со столбцами x_1. x_n , b=(b_1. b_n) — вектор параметров модели.

Пусть задана выборка D=\,i=1..m , состоящая из m пар, включающих векторы значений зависимых переменных x_i=(x_),j=1..n и значений единственной независимой переменной y_i . Индексы наблюдений i и индекс независимых переменных j , будем рассматривать как элементы множеств i∈I=\, j∈J=\ .

Также пусть задано разбиение на обучающее и тестовое множества L и T , I=L∪T .

Зададим модель линейной регрессии в виде:

где s=\\> — индекс модели, b_s=(b_j) — вектор параметров модели.

Алгоритм выбора модели задаёт метод оптимизации, доставляющий оптимальное значение параметрам \widehat модели на обучающей выборке. Минимизируемый функционал качества модели определим как сумму квадратов остатков регрессии:

Требуется найти такую модель, которая обеспечит минимум данному функционалу качества. В литературе величину S часто обозначают RSS — Residual Sum of Squares (сумма квадратов остатков).

Принудительное (полное) включение — включение в аналитическую модель всех доступных в обучающем наборе признаков. Этот подход целесообразно использовать в следующих случаях:

  1. Количество признаков относительно невелико и их полное включение не приводит к излишней сложности модели как в плане интерпретируемости, так и в плане вычислительной сложности.
  2. Исключение любого признака приводит к критичному уменьшению количества информации, используемой для обучения модели. Иными словами, когда незначимые и избыточные признаки просто отсутствуют.

Прямое включение (Forward selection) — метод, который базируется на принципе: начать с пустой модели, в которой признаки отсутствуют и постепенно добавляя признаки найти самые «лучшие».

Обратное исключение (Backward elimination) — исходная модель содержит все признаки, которые поочерёдно исключаются с целью найти «худшие» и не применять их в модели.

Пошаговое включение/исключение (Stepwise) — модификация метода прямого включения с тем отличием, что на каждом шаге после включения новой переменной в модель, осуществляется проверка на значимость остальных переменных, которые уже были введены в нее ранее (М.А. Эфраимсон, 1960).

Гребневая регрессия (Ridge regression) — использует процедуру регуляризации для ограничения пространства решений с целью сделать модель более устойчивой в случае высокой коррелированности входных признаков. Подразумевает введение штрафов для уменьшения значений коэффициентов регрессии. При этом значения параметров модели не обращаются в ноль, т.е. отбора переменных не происходит.

LASSO-регрессия — также использует регуляризацию для повышения устойчивости модели. Но отличается от гребневой регрессии тем, что допускает обнуление параметров модели (т.е. реализует процедуру отбора).

Регрессия «Эластичная сеть» — также использует регуляризацию, но в отличии от гребневой регрессии в ней применяет два регуляризующих члена.

Прямое включение (Forward selection)

Работа начинается с «нулевой модели», которая не содержит ни одной переменной. На первом шаге поочерёдно в «пустую модель» включаются по одной переменной и выбирается та, которая обеспечивает лучший результат. Затем в модель, содержащую единственную переменную поочерёдно добавляются оставшиеся переменные и выбирается та, которая обеспечивает наибольшее улучшение качества модели. Схематично метод представлен на рис. 1.

На рисунке показано пространство параметров модели. Критерий S — квадратичная функция относительно параметров b , поэтому кривая S=const является эллипсоидом. Регуляризирующий параметр, отличный от нуля, задает сферу в этом пространстве. Точка касания эллипсоида и сферы является решением нормального уравнения при фиксированном α . При этом касание эллипсоида в нулевой точке исключено и обнуления параметров модели не происходит. Метод улучшает устойчивость параметров регрессионной модели, но не приводит к обращению в ноль ни одного из них.

Следует отметить, что в результате корректировки оценок параметров модели при использовании гребневой регрессии они никогда не принимают нулевых значений, поэтому гребневая регрессия не является методом отбора переменных. С её помощью производится корректировка оценок параметров регрессионной модели с целью повышения её устойчивости, снижающейся из-за корреляции признаков набора данных.

Регрессия LASSO

Ещё одним методом оценивания параметров модели линейной регрессии с использованием регуляризации является метод LASSO (Least absolute shrinkage and selection operator — оператор наименьшего абсолютного сокращения и выбора). В отличие от гребневой регрессии оценки параметров, которые даёт регрессия LASSO, могут принимать нулевые значения. Таким образом, данный метод можно рассматривать и как регуляризацию с целью повышения точности, и как процедуру отбора переменных.

Метод LASSO использует ограничение на сумму абсолютных значений параметров модели. Рассматривается сумма модулей параметров модели:

T(\mathbf)=\sum\limits_^\left | b_ \right | .

Параметры регрессии выбираются из условия минимизации критерия (1) при ограничении T(\mathbf)\leq t , где t — параметр регуляризации.

При больших t решение совпадает с решением, полученным методом наименьших квадратов. Чем меньше t , тем больше коэффициентов регрессии принимают нулевое значение.

Графическая интерпретация метода LASSO представлена на рис. 4.

Эллипсоид, как и в случае гребневой регрессии (рис. 4) образован точками, в которых сумма квадратов остатков регрессии, минимизируемая в процессе решения, постоянна. Параметр t , отличный от нуля, задает многомерный октаэдр. Точка касания эллипсоида и октаэдра является решением стандартного уравнения регрессии при фиксированном t . При касании эллипсоида и ребра октаэдра происходит обнуление коэффициента.

Регрессия «Эластичная сеть»

В рассмотренных выше методах регуляризации регрессионной модели (гребневая и LASSO) используется единственный регуляризатор. Метод «Эластичная сеть» комбинирует обе эти техники, что позволяет преодолеть присущие им недостатки (рис. 5).

Например, если в наборе данных присутствует большое число признаков и малое число наблюдений, то метод LASSO может включать в модель «лишние» переменные. И, наоборот, если переменные модели сильно коррелированы, то LASSO выбирает только одну переменную.

Метод эластичной сети использует два регуляризующих члена:

\mathbf^=arg \underset<\boldsymbol<\mathbf>>\left (\sum\limits_^\left (y_-\sum\limits_^b_x_ \right )^+\alpha_ \left \| <\mathbf> \right \|^ +\alpha _\left \| \mathbf\right \| \right ) .

Квадратичный член делает целевую функцию более выпуклой и имеющей ярко выраженный минимум. Метод эластичной сети содержит два шага. Сначала фиксируется значение первого регуляризующего члена, т.е. ищутся оценки коэффициентов для гребневой регрессии. А затем производится их сокращение с помощью LASSO.

Пример использования методов отбора

Рассмотрим пример работы методов отбора переменных на реальных данных о заёмщике банка. Используемые признаки представлены таблице 1.

Таблица 1. Описание набора данных о заёмщике

Признак Обозначение Тип
Количество просрочек y Зависимая переменная
Стаж на последнем месте работы x_1 Независимая переменная
Срок кредита x_2 Независимая переменная
Сумма кредита x_3 Независимая переменная

Данные о 10 заёмщиках по описанным в таблице 1 признакам, представлены в таблице 2.

Таблица 2. Исходные данные для модели линейной регрессии

ID заёмщика Кол-во просрочек (y) Стаж, лет (x_1) Срок кредита, мес. (x_2) Сумма кредита, руб (x_3)
1 0 7.5 12 170 000
2 0 4.5 12 120 000
3 0 6.5 12 85 000
4 1 2.5 12 160 000
5 1 3.5 24 105 000
6 0 6.5 12 90 000
7 3 2.0 24 80 000
8 2 3.5 24 395 000
9 2 6.0 36 150 000
10 4 2.0 60 70 000

Метод прямого отбора

Начинаем с пустой модели. Первым признаком, который будет выбран в качестве переменной регрессионной модели, будет тот, который сильнее коррелирован с независимой переменной. Рассмотрим таблицу 3, в которой для каждой независимой переменной представлен коэффициент корреляции в зависимой.

Таблица 3. Корреляция между независимой переменной и зависимыми

Независимая переменная Коэффициент корреляции
x_1 -0.721
x_2 0.871
x_3 0.018

Из таблицы 3 несложно увидеть, что наибольшая линейная зависимость наблюдается между независимой переменной и переменной x_2 , т.е. между количеством просрочек и сроком кредита. При этом корреляция положительная, т.е. с ростом срока кредита число просрочек растёт. Поэтому первой переменной, которая будет включена в модель будет именно x_2 .

Рассчитаем регрессионные оценки для модели, содержащей единственную переменную.

Сумма квадратов остатков для модели с единственной независимой переменной x_2 будет S(x_)=4.38 . Если добавить в модель переменную x_1 , то S(x_,x_)=2.07 . Если добавить в модель переменную x_3 , то S(x_,x_)=4.13 .

Рассчитаем значения критерия Фишера для модели, включающей переменные x_2 и x_1 :

Зададимся уровнем значимой вероятности p =0.05. Это означает, что вероятность ошибочного отклонения гипотезы о значимости новой переменной не превышает 5%.

Далее нам необходимо воспользоваться таблицами критических значений распределения Фишера. Фрагмент такой таблицы представлен в таблице 4.

Таблица 4. Критические значения распределения Фишера

1 2 3 4 5 6
1 161.45 199.50 215.72 224.57 230.17 233.97
2 18.51 19.00 19.16 19.25 19.30 19.33
3 10.13 9.55 9.28 9.12 9.01 8.94
4 7.71 6.94 6.59 6.39 6.26 6.16
5 6.61 5.79 5.41 5.19 5.05 4.95
6 5.99 5.14 4.76 4.53 4.39 4.28
7 5.59 4.74 4.35 4.12 3.97 3.87
8 5.32 4.46 4.07 3.84 3.69 3.58
9 5.12 4.26 3.86 3.63 3.48 3.37
10 4.96 4.10 3.71 3.48 3.33 3.22

Строки и столбцы таблицы образованы числами степеней свободы, которых у распределения Фишера два (в таблице они обозначены как k_1 и k_2 ). При этом k_2=n−2=8 , где n — число наблюдений в наборе данных, на котором строится модель, а k_1=m−1=1 , где m — число свободных (независимых) переменных модели после добавления новой переменной.

На пересечении столбца для k_1=1 и строки для k_2=8 находим в таблице 4 критическое значение 5.32 (выделено красным цветом). Если рассчитанное значение критерия выше критического, то гипотезу о том, что новая переменная не увеличивает значимо точность модели должно быть отвергнуто. При этом вероятность обратного не превышает 5%. Поскольку рассчитанное значения F -критерия превышает критическое, можно сделать вывод о значимом улучшении качества модели при добавлении в неё переменной x_1 .

Проведём аналогичную проверку для переменной x_3 :

Данное значение меньше критического значения F -распределения, что позволяет отклонить гипотезу о значимости улучшения модели при добавлении в неё переменной x_3 .

Таким образом, мы получили, что из двух переменных-кандидатов на включение в модель x_1 и x_3 , только первая из них обеспечивает значимое улучшение качества модели и может быть включена в модель.

Метод обратного исключения

Начинаем с полной модели, которая содержит все признаки, доступные в наборе данных. Требуется произвести проверку, которая позволит определить нельзя ли исключить из модели какие-то переменные без значимого ухудшения её качества. Для этого найдём переменную, с которой связано минимальным значением F -критерия, найденного при условии, что остальные переменные включены в модель.

Переменная F
x_1 (Стаж) 7.92
x_2 (Срок кредита) 24.36
x_3 (Сумма) 0.47

Из таблицы видно, что первым кандидатом на исключение является переменная x_3 . По таблице F -распределения определим, что для k_1=10−3=7 и k_2=3−2=1 критическое значение F_=5.59 . Значение F -критерия для переменной x_3 меньше критического, что подтверждает предположение о низкой значимости переменной и приводит к выводу о целесообразности её исключения из модели.

Проведём аналогичные действия для оставшихся переменных, учитывая, что F_=5.32

Переменная F
x_1 (Стаж) 8.87
x_2 (Срок кредита) 27.05

Таким образом, значение F -критерия для остальных переменных превышает критическое, что позволяет сделать вывод о нецелесообразности их исключения из модели. При этом связанное с переменной x_2 значение F -критерия значительно превышает значение для x_1 . Это говорит о том, что значимость переменной x_2 с точки зрения повышения точности модели, существенно выше, чем x_1 , что делает её исключение наименее целесообразным.

Таким образом, порядок кандидатов на исключение следующий: x_3 , x_1 , x_2 , что согласуется с результатами метода прямого отбора, полученными выше.

Пошаговый отбор

  1. Осуществляем прямой ход процедуры пошагового отбора, т.е. первый шаг прямого отбора. Как показано выше, его результатом является включение в модель переменной x_2 . Поскольку на данном шаге регрессионная модель не содержит других переменных, обратный ход процедуры пошагового отбора не выполняется.
  2. Рассматриваем следующую переменную-кандидата на включение в модель. Это будет переменная x_1 , значимость которой была показана при рассмотрении метода прямого включения. После включения в модель новой переменной, переменная включенная ранее может потерять свою значимость и её использование в модели теряет смысл. Выяснить, потеряла ли переменная x_2 значимость «на фоне» x_1 и предстоит на фазе обратного хода алгоритма отбора.
  3. Для проверки целесообразности оставления переменной x_2 на обратном ходе, нужно оценить значимость увеличения суммы квадратов остатков регрессии при её исключении. Для этого определим соответствующее значение F -критерия.
Переменная S
x_\setminus x_

2.07
x_1 8.68

Данное значение превышает соответствующее критическое значение F -распределения F_=5.32 , поэтому можно считать что исключение переменной x_2 на обратном ходе алгоритма значимо ухудшает точность модели и, следовательно, нецелесообразно.

Поскольку переменная x_3 в прямом включении не смогла показать значимость, достаточную для включения в модель, то использовать её в процедуре пошагового отбора также не целесообразно и поэтому она завершает свою работу.

Заключение

В статье рассмотрены методы отбора переменных, наиболее широко применяемые в статистических моделях линейной регрессии. Однако эта проблема актуальна и для других задач и типов моделей анализа данных — кластеризации, классификации, прогнозирования и т.д. Во всех случаях включение в модель избыточных и незначимых переменных приводит к возрастанию сложности модели без адекватного увеличения её качества (а иногда приводит и к его ухудшению).

Поэтому отбор переменных можно рассматривать как часть более общей задачи снижения размерности (dimensionality reduction) пространства признаков. Она позволяет не только отобрать наиболее значимые переменные, но и обойти «проклятие размерности». Помимо отбора признаков, задача снижения размерности включает проецирование признаков, где производится попытка выразить информацию, содержащуюся в наборе исходных признаков с помощью меньшего числа новых переменных, представляющих линейные комбинации исходных. Сюда входят: факторный анализ и метод главных компонент, линейный и обобщённый дискриминантный анализ, корреляционный анализ и др.

Таким образом, технологии отбора переменных для аналитических моделей не ограничиваются описанными в данной статье, и могут применяться не только в рамках статистики, но и в машинном обучении. Важно лишь правильно выбрать метод, адекватный решаемой задаче, корректно его применить и проинтерпретировать результаты.

Другие материалы по теме:

Как повысить r квадрат в модели

Аналитическая статистика – одиниз самых сложных разделов анализа данных в плане изучения, при этом регрессионный анализ является одним из самых информативных. Такой анализ производится при решения следующих задач: установление и оценка взаимосвязи признаков; прогнозирование и предсказание; управление процессами. Существует два вида анализа двумерных данных, представленных переменными: корреляционный и регрессионныйанализ, последнийпозволяет определить форму взаимосвязи между признаками. В статье описывается простой способ проведения регрессионного анализа в MicrosoftExcel. Материалы данной статьи представляют методическую и практическую ценность для преподавателей, занимающихся вопросами повышения эффективности обучения в области основ анализа данных с информационных технологий, и осуществляющие реализацию образовательного процесса в вузах и на курсах повышения квалификаций.

Ключевыеслова: анализ данных
электронные таблицы

1. Овчинникова И.Г., Варфоломеева Т.Н., Гусева Е.Н. Учебно-методическое пособие для подготовки к вступительным экзаменам по информатике. -Магнитогорск, 2002. -С. 119

2. Овчинникова И.Г., Варфоломеева Т.Н., Корнещук Н.Г. Учебное пособие для подготовки к централизованному тестированию по информатике. -Магнитогорск, 2002. -С.205

3. Курзаева Л.В. Дистанционный курс «Основы математической обработки информации»: электронный учебно-методический комплекс // Хроники объединенного фонда электронных ресурсов Наука и образование. — 2014. -Т. 1. — № 12 (67). — С. 117

4. Курзаева Л.В. Введение в теорию систем и системный анализ: учеб. пособие/Л.В. Курзаева. -Магнитогорск: МаГУ, 2015. -211 с.

5. Курзаева Л.В. Введение в методы и средства получения и обработки информации для задач управления социальными и экономическими системами: учеб. пособие/Л.В. Курзаева, И.Г. Овчинникова, Г.Н. Чусавитина. -Магнитогорск:Магнитогорск. гос. техн. ун-та им. Г.И. Носова, 2016. -118 с.

Для реализации процедуры Регрессия необходимо: выбрать в меню Сервис команду Анализ данных. В появившемся диалоговом окне Анализ данных в списке Инструменты анализа выбрать строку Регрессия.

Рис.1. Окно «Регрессия»

1_2.png

В появившемся диалоговом окне (рис.1) задать:

Входной интервал Y– диапазон (столбец), содержащий данные со значениями объясняемой переменной;

Входной интервал Х– диапазон (столбцы), содержащий данные с заголовками.

Метки – флажок, который указывает, содержат ли первые элементы отмеченных диапазонов названия переменных (столбцов) или нет;

Константа-ноль– флажок, указывающий на наличие или отсутствие свободного члена в уравнении (а);

Уровень надежности– уровень значимости, (например, 0,05);

Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона, в котором будет сохранен отчет по построению модели;

Новый рабочий лист– поставить значок и задать имя нового листа (Отчет – регрессия), в котором будет сохранен отчет.

Если необходимо получить значения и график остатков, а также график подбора (чтобы визуально проверить отличие экспериментальных точек от предсказанных по регрессионной модели), установите соответствующие флажки в диалоговом окне.

Рассмотрим результаты регрессионного анализа (рис. 2, 3).

2_3.png

Рис. 2. Вывод итогов регрессионного анализа

3_2.png

Рис. 3. Вывод остатков и вероятности по результатам регрессионного анализа

Множественный R – коэффициент корреляции

R-квадрат – это коэффициент линейной детерминации. Коэффициент является одной из наиболее эффективных оценок адекватности регрессионной R2модели, мерой качества уравнения регрессии в целом (или, как говорят, мерой качества подгонки регрессионной модели к наблюденным значениям.

Если R-квадрат > 0,95, говорят о высокой точности аппроксимации (модель хорошо описывает явление). Если R-квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации (модель в целом адекватна описываемому явлению). Если R-квадрат < 0,6, принято считать, что точность аппроксимации недостаточна и модель требует улучшения (введения новых независимых переменных, учета нелинейностей и т. д.).

Нормированный R-квадрат – скорректированный (адаптированный, поправленный) коэффициент детерминации.

Недостатком коэффициента детерминации R-квадратявляется то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать нормированный, который в отличие от R-квадрат может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную.

Наблюдения – число наблюдений (в нашем случае 10 стран).

Df– число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант.

F и Значимость F позволяют проверить значимость уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

SS – Сумма квадратов отклонений значений признака Y.

MS – Дисперсия на одну степень свободы.

F – Наблюдаемое (эмпирическое) значение статистики F, по которой проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. Значимость F – теоретическая вероятность того, что при гипотезе равенства нулю одновременно всех коэффициентов модели F-статистика больше эмпирического значения F.

На уровне значимости α=0,05 гипотеза H0:b1=0отвергается, если Значимость F

Значения коэффициентов регрессии находятся в столбце Коэффициенты и соответствуют:

переменная XI – b1;

переменная Х2 – b2 и т. Д.

Таким образом, получена следующая модель регрессии:

t-статистика соответствующего коэффициента.

P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии. В случаях, когда Р-Значение>0,05, коэффициент может считаться нулевым, что означает, что соответствующая независимая переменная практически не влияет на зависимую переменную.

В нашем случае оба коэффициента оказались «нулевыми», а значит обе независимые переменные не влияют на модель.

Нижние 95% – Верхние 95% – доверительный интервал для параметра , т.е. с надежностью 0.95 этот коэффициент лежит в данном интервале. Поскольку коэффициент регрессии в исследованиях имеют четкую интерпретацию, то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов. Так, например, «Доля городского населения, в %» не может лежать в интервале -0,25≥b1≥2,7. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.

Предсказанное Y — теоретические (расчетные) значения результативного признака.

Остатки – остатки по модели регрессии.

На основе данных об остатках модели регрессии был построен график остатков (рис. 4) и график подбора – поле корреляции фактических и теоретических (расчетных) значений результативной переменной (рис.5).

Рис. 4. График остатков по значениям признака «Доля городского населения, %»

Рис. 5. График подбора для признаков «Доля городского населения, %» и «Число мобильных телефонов на 100 жителей»

Рассмотрение графиков подбора позволяет предположить, что, возможно, качество модели можно усовершенствовать, исключив данные по Белоруссии как аномальные значения.

Как повысить r квадрат в модели

Формула ( 2.28 ) (или эквивалентная ей формула ( 2.29 )) дает вторую форму представления коэффициента детерминации.

Обозначим остаточную сумму квадратов

Тогда можно записать соотношение

которое представляет собой разложение полной суммы квадратов на сумму квадратов, объясненную моделью, и остаточную сумму квадратов. Используя эти три суммы, можно записать также, что

Таким образом, значение коэффициента детерминации тем выше, чем больше доля объясненной моделью суммы квадратов ESS по отношению к полной сумме квадратов TSS.

Термины «полная» и «объясненная моделью» суммы квадратов имеют следующий смысл. Полная сумма квадратов TSS = RSS в ситуации, когда b = 0 и «наилучшая» прямая имеет вид , то есть линейная зависимость y от x отсутствует. Вследствие этого, наблюдения переменной x не дают новой информации для объяснения изменений значений y от наблюдения к наблюдению. В этом случае значение коэффициента детерминации равно нулю. Его максимальное значение равно единице. Это соответствует случаю, когда RSS = 0 или, что равноценно, Var(e) = 0, то есть влияние случайной составляющей полностью отсутствует и можно построить точную линейную зависимость между переменными.

Третье представление коэффициента детерминации

Введем понятие коэффициента корреляции между фактическим значением переменной y и ее прогнозом

Коэффициент корреляции является относительным показателем статистической (линейной) взаимосвязи между случайными переменными. Можно ожидать, что чем больше этот коэффициент, тем лучше регрессия аппроксимирует наблюдаемые данные.

Используя правила действий с выборочными вариациями и ковариациями (см. п. 2.3.2 ), нетрудно видеть, что

Таким образом, мы получили третье выражение для коэффициента детерминации:

Отметим, что минимизация суммы квадратов остатков (МНК-критерий) эквивалентна максимизации коэффициента детерминации. Действительно,

и, таким образом, минимизация суммы квадратов остатков приводит к максимизации коэффициента R 2 в выражении ( 2.29 ).

При построении модели парной линейной регрессии следует добиваться, чтобы значение коэффициента детерминации было как можно ближе к единице. Для его вычисления проще и удобнее использовать формулу ( 2.28 ).

Вычисление коэффициента детерминации для модели примера 2.1 . Вычисления по формуле ( 2.28 ) дают следующее значение коэффициента детерминации для модели примера 2.1: R 2 = 0,9965. Таким образом, коэффициент детерминации близок к единице, что указывает на хорошее качество аппроксимации наблюдаемых данных построенной моделью.

Вычисление коэффициентов детерминации для моделей товарооборота филиалов примера 2.2 . Для первой регрессии примера 2.2., описывающей зависимость товарооборота от торговой площади, коэффициент детерминации R1 2 = 0,96886. Для второй регрессии, описывающей зависимость товарооборота от среднедневной интенсивности потока покупателей R2 2 = 0,42433.

Таким образом, полученные объективные показатели качества регрессионных моделей — коэффициенты детерминации, подтверждают сделанное ранее предположение (см. пример 2.2) о том, что первая регрессия лучше объясняет поведение зависимой переменной.

2.4.2. Построение доверительных интервалов для коэффициентов регрессии

Рассмотренный в предыдущем разделе показатель адекватности — коэффициент детерминации используется для оценки качества регрессионных моделей в целом, при сравнении альтернативных моделей. В данном разделе рассматриваются процедуры, позволяющие сделать вывод о качестве оценок истинных значений отдельных параметров уравнения.

Оценки дисперсий МНК-оценок коэффициентов

Одной из важных характеристик качества оценки является ее дисперсия, как мера отклонения относительно ожидаемого значения. Полученные ранее уравнения ( 2.22 ), ( 2.23 ) (или ( 2.24 )) для дисперсий оценок зависят от неизвестной дисперсии случайной составляющей регрессионной модели u. Для того, что бы эти уравнения можно было использовать в практических расчетах, необходимо определить оценку величины . Это еще один параметр модели. Несмещенной оценкой дисперсии случайного члена u является оценка вида

Выражение ( 2.30 ) используется для вычисления оценок дисперсий оценок a и b коэффициентов регрессии. Для этого в уравнениях ( 2.22 ), ( 2.23 ), ( 2.24 ) теоретическая дисперсия заменяется ее оценкой ( 2.30 ). Таким образом, оценки дисперсий имеют вид

Определение доверительных интервалов оценок параметров модели

Полученные оценки параметров и модели являются точечными . Формулы ( 2.13 ), ( 2.14 ) определяют оценки в виде случайных чисел, зависящих от конкретной выборки наблюдений. Эти числа могут в отдельных случаях существенно отклонятся от истинных значений параметров. В связи с этим возникает вопрос — возможно ли определить с достаточной степенью надежности, насколько полученные оценки близки к истинным значениям параметров, или точнее, определить интервалы, в пределах которых с заданной вероятностью могут находиться истинные значения параметров. Оказывается, такие интервалы можно построить, используя так называемые t-тесты. Для построения t-тестов необходимо предположение о нормальности случайной составляющей, то есть t-тест применяется в рамках предположений классической нормальной линейной регрессии . С помощью t-тестов можно проверить гипотезы как об отдельных числовых значениях коэффициентов регрессии, так и о значениях их линейных комбинаций. Последнее особенно важно для суждения об адекватности моделей множественной линейной регрессии. t— тесты позволяют также построить доверительные интервалы для коэффициентов регрессии и прогнозных значений зависимой переменной.

t-тесты основаны на следующем важном утверждении: случайные переменные

подчиняются центральному распределению Стьюдента (t-распределению, отсюда название — t — тесты) с (n-2) степенями свободы .

Замечание относительно степеней свободы.

Количество степеней свободы равно количеству наблюдений переменных минус количество оцениваемых коэффициентов модели. В модели парной линейной регрессии таких коэффициентов всего два. Увеличение количества коэффициентов в модели регрессии при фиксированном размере выборки соответственно уменьшает количество степеней свободы.

Очевидно, что погрешности точечных оценок коэффициентов равны соответственно , . Это случайные величины, поскольку случайными являются сами оценки. Поэтому о точности оценок (об их погрешности) можно судить только в вероятностном смысле. Зададим ширину интервала погрешности (не случайную величину), и определим надежность оценки, как вероятность, с которой ошибка точечной оценки попадет в этот фиксированный интервал. Формально это можно записать так

где — вероятность того, что ошибка точечной оценки попала в заданный интервал . Можно сказать, что вероятность характеризует степень доверия к заданному интервалу, поэтому она называется доверительной вероятностью или надежностью . Величина — вероятность того, что ошибка выйдет за пределы данного интервала, называется уровнем значимости .

Соотношения ( 2.35 ), ( 2.36 ) можно переписать в виде

Интерпретация доверительных интервалов.

Выражения ( 2.37 ), ( 2.38 ) интерпретируются следующим образом: величина — это вероятность того, что оцениваемые неслучайные параметры и покрываются соответственно интервалами , со случайными концами, зависящими от случайных величин — оценок a и b.

Эти интервалы называются доверительными интервалами . Доверительные интервалы называют также интервальными оценками и они дополняют точечные оценки параметров. Интервальные оценки дают дополнительную, ценную информацию о надежности точечных оценок и позволяют повысить надежность суждений о точечных оценках.

Определение доверительных интервалов.

Для определения доверительных интервалов используются t — статистики Стьюдента вида ( 2.33 ), ( 2.34 ). Для статистики t (имеющей t-распределение) можно определить значение (из таблицы t-критерия) , соответствующее заданному уровню значимости и данному числу степеней свободы, (здесь p — количество степеней свободы, при двух параметрах p = 2), такое, что

Подставляя в ( 2.39 ) вместо t выражения статистик ( 2.33 ) и ( 2.34 ) и разрешая неравенства относительно параметров и , получим следующие соотношения

Таким образом, двусторонние симметричные доверительные интервалы

с вероятностью накрывают неизвестные истинные значения параметров регрессии и . Расположение и ширина доверительных интервалов меняются от выборки к выборке. Действительно, их расположение и ширина зависят как от оценок коэффициентов, которые являются переменными (случайными величинами), так и от случайных значений выборочных оценок среднеквадратичных отклонений sa и sb. При построении эконометрических регрессионных моделей доверительные интервалы обычно определяют для двух уровней значимости — и . Соответственно говорят о 5%-ом уровне значимости или об 1% — ом уровне значимости . Доверительные вероятности (уровни доверия) при этом будут равны и . Соответственно говорят о 95%-ом или о 99%-ом уровне доверия (надежности) . Подчеркнем, что чем меньше уровень значимости (больше уровень доверия), тем шире соответствующий доверительный интервал (при прочих равных условиях).

Можно сказать, что при 95% — ом уровне доверия доверительный интервал в среднем в 95 случаях из 100 накрывает истинное значение параметра, при 99% — ом — в 99 случаях из ста.

Определение доверительных интервалов для модели примера 2.1. Определим границы доверительных интервалов для коэффициентов модели примера 2.1. Будем предполагать, что регрессор x — не случайная величина. Тогда оценки дисперсий остатков и коэффициентов регрессии вычисляются по формулам ( 2.30 ), ( 2.31 ), ( 2.32 ). Они равны соответственно: , , . Табличное значение t — статистики для 13 степеней свободы и уровня значимости равно 2,160. Используя эти данные, легко вычислить границы доверительных интервалов для коэффициентов и : ;. Таким образом, можно утверждать, что истинные значения коэффициентов с вероятностью 0,95 находятся в пределах указанных границ.

Доверительные интервалы для моделей примера 2.2. Аналогично предыдущему примеру, можно определить границы доверительных интервалов для двух регрессий примера 2.2. Критическое значение t — статистики при уровне значимости 0,05 и p = 12 — 2 = 10 степеней свободы равно 2,228. Оцененные среднеквадратичные отклонения оценок коэффициентов первой регрессии равны sa = 0,2887, sb = 0,2961. Доверительные интервалы для коэффициентов: , . Для второй регрессии sa = 2,7334, sb = 0,2516. Доверительные интервалы: , .

Постройте доверительные интервалы для моделей примеров 2.1, 2.2. при уровне значимости .

2.4.3. Точечный и интервальный прогноз зависимой переменной

Определим прогноз среднего значения зависимой переменной как оценку теоретической взаимосвязи с помощью эмпирической (оцененной) регрессионной функции

где x — некоторое значение независимой переменной, вообще говоря, несовпадающее со значениями переменных из выборки, по которой оценены параметры регрессии. Поскольку оценки a и b — случайные величины, то и прогноз будет случайной величиной.

Замечание. Прогноз среднего значения и прогноз индивидуального значения зависимой переменной.

Следует различать прогноз среднего значения регрессанда как оценку его математического ожидания с учетом предпосылки M(ui) = 0 (первого условия Гаусса — Маркова), и прогноз как оценку возможного индивидуального значения (реализации) yi регрессанда y. В этом случае в уравнение ( 2.42 ) следовало бы добавить прогноз случайной составляющей модели. В качестве прогнозного значения случайной составляющей берут ее математическое ожидание, которое равно нулю. Это различие в понимании смысла прогноза существенно, так как соответствующие дисперсии ошибок прогноза и доверительные интервалы будут различны.

Рассмотрим сначала прогноз среднего зависимой переменной.

Дисперсия прогноза среднего зависимой переменной и ее оценка

При выводе уравнений для дисперсии и ее оценки мы будем использовать правила преобразования теоретических вариаций (дисперсий) и ковариаций случайных величин. Эти правила такие же как и для соответствующих выборочных характеристик, которые были установлены в разделе 2.3.2 . Для записи теоретических значений вариаций и ковариаций мы будем использовать обозначения var( , ), cov( , ).

Получим выражение для дисперсии прогноза. Имеем

где взаимная ковариация имеет вид

Подставляя в ( 2.43 ) выражения ( 2.22 ), ( 2.23 ) для дисперсий оценок параметров и взаимной ковариации ( 2.44 ), получим

Таким образом, окончательно имеем

Определение доверительных интервалов для прогноза среднего значения зависимой переменной

Определим доверительный интервал для прогноза ( 2.42 ) зависимой переменной. Этот интервал с вероятностью накрывает среднее значение зависимой переменной. Построение доверительного интервала основано на применении t-статистики вида

и его границы вычисляются по следующим формулам:

Доверительный интервал для отдельных значений зависимой переменной (значений в отдельных наблюдениях, индивидуальных значений)

Дисперсия отдельных наблюдений зависимой переменной и ее оценка

Определим дисперсию наблюдаемых значений зависимой переменной

Заменяя в ( 2.47 ) неизвестные теоретические значения дисперсий и их оценками по формулам ( 2.46 ) и ( 2.30 ), получим оценку дисперсии индивидуального значения зависимой переменной

Доверительный интервал для индивидуальных значений зависимой переменной

Доверительный интервал для индивидуальных значений строится с использованием t-статистики вида

Границы интервала, с вероятностью накрывающего индивидуальное значение переменной y, определяются следующим образом:

где количество степеней свободы p = n-2.

Пример 2.8. Доверительные границы прогнозов среднего и индивидуального значений зависимой переменной в модели примера 2.1.

Определим прогноз доходности акций компании для момента t = 3, то есть для значения x = x3 = 0,07 и построим доверительные интервалы прогнозов среднего и индивидуального значений, предполагая, что регрессор x — не случайная величина.

Используя уравнение регрессии с оцененными коэффициентами (см. пример 1.1.), получим

Доверительные границы индивидуального значения:

Постройте интервальные прогнозы средних и индивидуальных значений зависимой переменной для регрессий примера 2.2.

2.4.4. Проверка статистических гипотез относительно коэффициентов регрессии

Двусторонний t-тест
(t — тест двусторонней пары гипотез)

Помимо определения доверительных интервалов для коэффициентов, при построении регрессионных моделей важным является вопрос о проверке гипотез относительно некоторых конкретных значений отдельных коэффициентов регрессии. Такой вопрос возникает, например, если необходимо проверить, статистически значимо ли влияние регрессора (независимой переменной) на регрессанд (зависимую переменную). В этом случае можно сформулировать и попытаться проверить две гипотезы:

В общем случае, если на основе анализа объекта моделирования можно заранее (то есть еще до проведения наблюдений) предположить (высказать гипотезу), что регрессионный коэффициент равен некоторому значению , то для проверки этого предположения гипотезы формулируются следующим образом:

Тесты для проверки гипотез строятся на основе t-статистики вида

(эквивалентная запись этого условия );

гипотеза H0 принимается , если

Область значений t-статистики, задаваемая выражением ( 2.49 ) называется областью отклонения гипотезы H0, а область ( 2.50 ) — областью принятия гипотезы H0, при уровне значимости .

Ошибки I и II рода.

При проверке и принятии гипотез существует риск допущения ошибок I и II рода . Ошибка I рода возникает, если нулевая гипотеза истинна, но она отвергается. Ошибка II рода возникает, когда нулевая гипотеза ложна, но она не отвергается. Поскольку t — статистика — величина случайная, то она может случайно принять значение из области отклонения нулевой гипотезы, даже если эта гипотеза верна. Так как вероятность попадания t-статистики в область принятия гипотезы равна , а вероятность попадания в область отклонения равна , то уровень значимости и будет вероятностью ошибки первого рода. Чем меньше уровень значимости, тем с большим основанием (с большей надежностью) можно принять нулевую гипотезу. Такой уровень значимости называют более высоким . Однако, если нулевая гипотеза на самом деле ложна, в этом случае возрастает вероятность ошибки второго рода. Если же выбрать низкий уровень значимости (это соответствует большему значению ), то вероятность ошибки первого рода будет выше. На практике идут на компромисс, и проверяют гипотезы для двух уровней значимости: низкого , обычно 5% — го и высокого , обычно 1% — го.

Интерпретация результатов тестирования.

Если t-тест показывает, что на уровне значимости гипотеза H0 отвергается, то это означает, что . При этом t-тест не определяет, какое значение имеет коэффициент . Если , то отклонение нулевой гипотезы означает, что независимая переменная (регрессанд) оказывает влияние на зависимую переменную (регрессор). Точнее следует говорить так: при заданном уровне значимости регрессор оказывает статистически значимое влияние на регрессанд. При попадании t — статистики в область принятия гипотезы H0 говорят, что t — тест не отвергает нулевую гипотезу.

Односторонний t-тест
(t-тест односторонней пары гипотез)

С помощью одностороннего t-теста проверяют предположение (гипотезу) о том, больше или нет коэффициент некоторого заданного значения . Формально это можно сформулировать в виде пары гипотез:

Односторонний t-тест строится также, как двусторонний, однако область принятия решения, естественно, будет отличаться.

Области принятия и отклонения для первой пары гипотез: область принятия гипотезы H0

область отклонения гипотезы H0

Области принятия и отклонения для второй пары гипотез: область принятия гипотезы H0

область отклонения гипотезы H0

Интерпретация результатов тестирования

Если значения t-статистики попадают в область принятия нулевой гипотезы при заданном уровне значимости , то говорят, что параметр с вероятностью имеет значение большее, чем .

Порядок проведения t-теста.

1. Сформулировать пару гипотез.

2. Определить табличное значение t-критерия для заданного уровня значимости.

3. Вычислить значение соответствующей t — статистики.

4. Сравнить величину t — статистики с табличным значением t — критерия.

5. Сделать вывод относительно возможности принятия гипотезы.

Нетрудно заметить, что двусторонний t — тест для пары гипотез (или аналогичных гипотез относительно коэффициента ) можно осуществить, построив двусторонний симметричный доверительный интервал для значения . В этом случае правило проверки гипотезы формулируется следующим образом: гипотеза H0 отклоняется с уровнем значимости , если доверительный интервал с вероятностью не накрывает значение .

Отметим, что аналогичные тесты строятся и для проверки гипотез относительно коэффициента .

2.4.5. Проверка значимости коэффициента детерминации: F — тест

В разделе 2.3.4. мы ввели понятие коэффициента детерминации R 2 как показателя адекватности линейной регрессионной модели (меры степени линейной связи между переменными). Чем выше значение этого показателя, тем более точно линейная регрессия соответствует наблюдаемым данным. Но этот коэффициент определяется по выборочным данным и является в силу этого случайной величиной. Поэтому, даже если линейная связь между переменными y и x в парной линейной регрессии отсутствует (объясненная часть общей вариации зависимой переменной равна нулю), коэффициент детерминации может случайно принять большое значение, либо наоборот, при наличии линейной связи коэффициент детерминации может случайно принять значение, близкое к нулю.

Таким образом, возникает вопрос: можно ли построить статистическую процедуру для проверки значимости коэффициента детерминации, подобно тому, как строились процедуры (тесты) для проверки гипотез о коэффициентах регрессии. Оказывается, что такую процедуру можно построить в рамках классической нормальной линейной модели регрессии, и она основана на использовании так называемой F-статистики , которая определяется следующим образом:

где ESS — объясненная сумма квадратов, RSS — остаточная сумма квадратов, p — число независимых переменных. Выражение ( 2.51 ) можно преобразовать и записать с использованием коэффициента детерминации

где TSS — полная сумма квадратов отклонений зависимой переменной.

Заметим, что значения F — статистики не могут быть отрицательными.

На основе F — статистики проверяется пара гипотез:

Процедура проверки состоит в следующем:

1. вычисляем коэффициент детерминации;

2. вычисляем значение F — критерия (статистики) по формуле ( 2.52 );

3. находим табличное (критическое) значение F — критерия при заданном уровне значимости ;

4. если , то нулевая гипотеза отклоняется на уровне значимости .

Очевидно, результаты F — теста и t — теста для проверки значимости коэффициента должны совпадать.

Пример 2.9. Проверка значимости коэффициента детерминации.

Проверим гипотезу о значимости коэффициента детерминации в примере 2.1. Значение F-статистики, вычисленное по формуле ( 2.52 ), равно: F=3701,286. Критическое (табличное) значение F — статистики для уровня значимости 0,05 равно . Поскольку расчетное значение F больше табличного, то нулевая гипотеза отклоняется на уровне значимости 0,05.

Проверьте с помощью F — теста значимость коэффициентов детерминации для регрессий примера 1.2.

назад

предыдущая глава

начало главы

оглавление

следующая глава

вперед

Томский государственный университет — 2003

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *