11 Проверка линейной свзяи

До этого мы рассматривали виды статистического анализа, когда нужно было сравнить средние значения в нескольких группах. Зависимая переменная всегда была количественная (ее среднее значение по группам мы и сравнивали), а независимая – категориальная, принимала конечное число значений, и каждое ее значение – отдельный уровень НП, отдельная группа.

Теперь мы переходим к статистическим критериям, которые используются, когда обе переменные, и ЗП, и НП – количественные.

11.1 Корреляционный анализ

Корреляция – это связь между переменными. Несмотря на то, что она называется так же, как и один из двух видов связи между переменными, корреляционную связь можно выявить с помощью в целом любых видов анализа – ведь когда мы получаем результаты статистических критериев, мы понимем только, что две переменные связаны (или нет), но не можем сделать вывод о том, причинно-следственная это связь или корреляционная.

Здесь речь пойдет именно про корреляционный анализ – специальный вид анализа для определения значимости линейной связи только между двумя количественными или порядковыми переменными.

Чтобы вывести формулу и смысл корреляции, познакомимся с понятием ковариации.

Ко-вариация (co-variance) – это мера со-изменчивости данных, показатель того, как наблюдения по двум количественным переменным меняются друг относительно друга.

Картинка отсюда

\(\text{cov}(x,y)=\frac{\sum_{i=1}^n (x_i - \bar x) (y_i - \bar y )}{n-1}\)

Шок-контент: попробуйте посчитать ковариацию переменной самой с собой и посмотрите на получившуюся формулу: ничего не напоминает?

Ковариация самой с собой

\(\text{cov}(x,x)=\frac{\sum_{i=1}^n (x_i - \bar x) (x_i - \bar x )}{n-1} = \frac{\sum_{i=1}^n (x_i - \bar x )^2}{n-1}\)

И это дисперсия!

Коэффициент корреляции – это показатель силы и направления связи между переменными. За силу связи отвечает модуль числа, за направление – знак корреляции. По сути, это ковариация переменных, но взвешенная на стандартные отклонения этих переменных. Это сделано для того, чтобы стандартизовать коэффициент, уйти от абсолютных значений к относительным и расположить этот коэффицент в границах [-1;1]. Для коэффициента корреляции Пирсона (корреляции двух количественных переменных):

\(\text{corr}(x,y) = r_{xy} = \frac{\text{cov(x, y)}}{sd_x sd_y} = \frac{\sum_{i=1}^n (x_i - \bar x) (y_i - \bar y )}{(n-1)sd_x sd_y}\)

Коэффициент детерминации – показатель, в какой степении изменчивость данных объясняется этой выбранной независимой переменной. В случае, если у нас только одна НП, то коэффициент детерминации – практически то же самое, что и корреляция, только взятая в квадрат:

\(R^2 = r_{xy}^2 = \frac{\text{cov(x, y)}}{sd_x sd_y} = \frac{\sum_{i=1}^n (x_i - \bar x) (y_i - \bar y )}{(n-1)sd_x sd_y}\)

Пример с сайта https://rpsychologist.com/correlation/

Игра по угадывание корреляции: http://guessthecorrelation.com/

11.1.1 Корреляционный тест

Гипотезы о наличии линейной связи между переменными проверяются при помощи корреляционного теста. Это точно такой же статистический критерий, как и те, что мы уже разобрали. По сути – ровно то же самое, что линейная регрессия с одной переменной. Корреляционный тест применяется, когда и ЗП, и НП являются количественными переменными либо выраженными в порядковкой шкале (но не номинативной). Для количественной шкалы обычно используется коэффициент корреляции Пирсона, для порядковой или для количественной переменной с малым числом наблюдений – коэффициент корреляции Спирмена.

Корреляционный тест использует – вы не поверите – уже знакомое нам T-распределение Стьюдента! (то есть, нам надо запомнить вообще всего два распределения: T-распределение и F-распределение)

Число степеней свободы вычисляется по формуле

\(df = n - 2\), n – число наблюдений

Нулевая и альтернативная гипотезы для корреляционного теста:

\(H_0\): \(r_{xy} = 0\)

\(H_1\): \(r_{xy} \neq 0\)

Как и остальные критерии, он имеет допущения.

11.1.2 Допущения для корреляционного теста

(ЗП и НП измерены в количественной или порядковой шкале)

  1. Распределение НП по ЗП линейно – нет картины нелинейной взаимосвязи или скоплений данных в разных местах.
  2. ЗП распределена нормально (не обязательно строгое соответствие) и нет заметных выбросов – обсуждали эту проверку здесь

Примеры, как может выглядеть нелинейное распределение:

Картинка из википедии про корреляцию

11.1.3 Непараметрические аналоги

Если ЗП сильно отличается от нормального распределения, или выборка мала, или ЗП закодирована в порядковой шкале – в корреляционном тесте используется коэффициент корреляции Спирмена вместо Пирсона, и это единственное различие.

Есть еще тау-Кендалла, это почти то же самое, что и корреляция Спирмена, но мы не будем ее рассматривать, так как она применяется крайне редко.

11.1.4 Расчет корреляционного теста

Проведем тест для следующей гипотезы.

Чем ниже студенты оценивают качество семейных отношений famrel, тем выше они отмечают частоту употребления алкоголя Walc

student school sex age address famsize Pstatus Medu Fedu Mjob Fjob reason guardian traveltime studytime failures schoolsup famsup paid_mat activities nursery higher internet romantic famrel freetime goout Dalc Walc health absences_mat G1_mat G2_mat G3_mat paid_por absences_por G1_por G2_por G3_por G_mat G_por absences_mat_groups absences_por_groups
id1 GP F 18 U GT3 A 4 4 at_home teacher course mother 2 2 0 yes no no no yes yes no no 4 3 4 1 1 3 6 5 6 6 no 4 0 11 11 5.666667 7.333333 middle less
id2 GP F 17 U GT3 T 1 1 at_home other course father 1 2 0 no yes no no no yes yes no 5 3 3 1 1 3 4 5 5 6 no 2 9 11 11 5.333333 10.333333 less less
id4 GP F 15 U GT3 T 4 2 health services home mother 1 3 0 no yes yes yes yes yes yes yes 3 2 2 1 1 5 2 15 14 15 no 0 14 14 14 14.666667 14.000000 less less
id5 GP F 16 U GT3 T 3 3 other other home father 1 2 0 no yes yes no yes yes no no 4 3 2 1 2 5 4 6 10 10 no 0 11 13 13 8.666667 12.333333 less less
id6 GP M 16 U LE3 T 4 3 services other reputation mother 1 2 0 no yes yes yes yes yes yes no 5 4 2 1 2 5 10 15 15 15 no 6 12 12 13 15.000000 12.333333 middle middle
id7 GP M 16 U LE3 T 2 2 other other home mother 1 2 0 no no no no yes yes yes no 4 4 4 1 1 3 0 12 12 11 no 0 13 12 13 11.666667 12.666667 less less
id8 GP F 17 U GT3 A 4 4 other teacher home mother 2 2 0 yes yes no no yes yes no no 4 1 4 1 1 1 6 6 5 6 no 2 10 13 13 5.666667 12.000000 middle less
id9 GP M 15 U LE3 A 3 2 services other home mother 1 2 0 no yes yes no yes yes yes no 4 2 2 1 1 1 0 16 18 19 no 0 15 16 17 17.666667 16.000000 less less
id10 GP M 15 U GT3 T 3 4 other other home mother 1 2 0 no yes yes yes yes yes yes no 5 5 1 1 1 5 0 14 15 15 no 0 12 12 13 14.666667 12.333333 less less
id11 GP F 15 U GT3 T 4 4 teacher health reputation mother 1 2 0 no yes yes no yes yes yes no 3 3 3 1 2 2 0 10 8 9 no 2 14 14 14 9.000000 14.000000 less less

Пойдем также по алгоритму.

ЗП – порядковая, НП – порядковая. Наша гипотеза не о сравнении групп между собой, а то, что эти переменные коррелируют, между ними есть линейная связь.

Так как ЗП и НП порядковые, мне нужно использовать непараметрический аналог корреляциии Пирсона – ранговую корреляцию Спирмена (либо порядковую логистическую регрессию (если я хочу, чтобы связь имела предсказательную силу), но об этом не в этот раз).

cor.test(students$famrel, students$Walc, method = 'spearman')
## 
##  Spearman's rank correlation rho
## 
## data:  students$famrel and students$Walc
## S = 6173557, p-value = 0.0196
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##       rho 
## -0.130423

Если бы у нас были две количественные переменные, то мы бы просто визуализировали их диаграммой рассеяния с уже привычной линией посреди точек. Например, такой:

Картинка отсюда

Но у нас две порядковые переменные, поэтому диаграмма рассеяния даст непонятный вариант. Поэтому будем использовать мозаичный плот: размер плитки отражает частоту совпадения таких значений двух переменных.

Другой вариант – хитмеп, тут размеры фиксированные, а за частоту совпадений отвечает цвет.

11.1.5 Интерпретация результатов

Когда мы интерпретируем результаты корреляционного теста, нас, как обычно, интересует значение статистики (t-значение или F-значение), p-value и размер эффекта. Для корреляционного теста значением статистики будет t-значение, но обычно фигурирует не оно, а коэффциент корреляции между переменными x и y \(r_xy\) – он же является и размер эффекта, показателем величины различий. Корреляционный тест – это единственный тест, где нам не нужна дополнительная метрика о размере эффекта (например Cohen’s d), а мы уже по самому коэффициенту судим о силе различий.

В примере выше мы получили r = -0.13. В коэффициенте корреляции мы смотрим на два параметра: это знак и модуль числа. Здесь у нас отрицательная корреляция, то есть связь будет обратной: с увеличением одной переменной (например, оценки качества семейных отношений famrel) будет уменьшаться вторая переменная (частота употребления алкоголя Walc). 0.13 по модулю – небольшое число, это довольно слабая корреляция (свериться с разбиением по размерам можно в разделе про размеры эффекта).

Важно, что при очень большой выборке даже совсем слабая корреляционная связь будет достигать статистической значимости! Поэтому не стоит увлекаться корреляционными тестами для поиска связей всего со всем: вы ее точно найдете, и она даже будет значимой. Как видите, даже r=0.1 может достигать порог статистической значимости.

Искать корреляцию стоит между осмысленными переменнами: так как при больших выборках она может быть значимой, может оказаться, что коррелируют между собой число фильмов, где снимался Николас Кейдж, и число самоубийств путем утопления – очевидно, что эти величины не связаны между собой, и корреляция тут случайна. Можно посмотреть на странные корреляции на сайте https://tylervigen.com/view_correlation?id=12692

Еще один важный момент – в корреляционном тесте, даже при идеально простроенном эксперименте, мы не сможем заключить причинно-следственную связь. Но важно не путь теоретическую возможность сделать вывод о причинно-следственной связи и методы статистического анализа: они как теплое и красное, относятся к разным вещам. За возможность сделать вывод говорит дизайн исследования, а не статистический тест. Если у нас хорошо проведенный контролируемый эксперимент, и соблюдаются 3 условия установления причинно-следственной связи (обсуждали это здесь), то мы можем ее заключить. При этом, применение того же ANOVA может относиться и не к эксперименту, и вывод мы все равно будем делать о корреляционной (ассоциативной) связи.

11.1.6 Корреляционные матрицы

Часто встречется анализ корреляционных матриц – когда корреляции вычисляются попарно для каждой матрицы переменных. Это можно встретить, например, при корреляции опросников: допустим, есть опросник О1 и О2. В опроснике О1 есть субшкалы С11, С12, С13, С14, С15, а в О2 соответственно – С21, С22, С23, С24, С25. Тогда мы можем построить корреляционную матрицу для субшкал этих опросников.

11.2 Линейный регрессионный анализ

Линейный регрессионный анализ – это ровно тот же известный нам ANOVA (дисперсионный анализ), только если заменить категориальные НП на количественные!

Сама линейная регрессия – это прямая, которую мы пытаемся провести через все наши точки таким образом, чтобы она захватывала наибольшее их количество. По сути это то же самое, что и корреляция, только более мощный инструмент – сюда мы можем вводить несколько НП.

Регрессионный анализ – довольная мощная штука, потому что здесь мы впервые начинаем говорить еще и о предсказательной функции анализа. Выходит, что регрессионный анализ может применяться:

  • Для проверки гипотез о наличии линейной связи между количественными или порядковыми переменными
  • Для предсказания значений ЗП за пределами имеющихся данных

Пока что нас интересует первая из этих функций, хотя очень часто линейный регрессионный анализ интересен именно с точки зрения второй.

Регрессионный анализ строится на построении регрессионной прямой: любая прямая имеет вид \(y = kx + b\), в регрессионном анализе это уравнение часто записывается как \(y = b_0 + b_1x\). И задача регрессионного анализа – это определение и тестирование коэффициентов \(b_0\) и \(b_1\) линейной регрессии.

11.2.1 Коэффициенты регрессии

Уравнение проведенной нами регрессионной прямой:

\(\hat y = b_o + b_1x\)

Мы видим, что большинство точек не ложатся на прямую идеально – остается еще некоторое расстояние по оси y до самой точки. Поэтому еслимы будем записывать уравнение для каждой точки, используя уравнение регрессионной прямой, оно будет иметь вид:

\(y = b_o + b_1x + e\)

То расстояние по оси y, что осталось до точек после того, как мы провели через них прямую, называется остатками – то есть это отличия исходных данных от описываемых нашей моделью (прямой), то, что “остается”:

\(e = y - \hat y\)

Обратите внимание: когда мы говорим про уравнение прямой линии, мы обозначаем y как \(\hat\), а когда говорим о фактических точках – обозначем его просто \(y\).

Регрессионная прямая часто еще называется моделью. Уравнение регрессионной прямой с каждыми новыми коэффициентами – новая модель.

  • Коэффициент \(b_1\) отвечает на наклон прямой (slope)
  • Коэффициент \(b_0\) отвечает за смещение прямой вдоль оси y (intercept)

Коэффициенты считаются таким образом, чтобы сумма квадратов остатков была минимальна. Это называется методом наименьших квадратов.

При построении регрессионной прямой нам надо стремиться к уменьшению суммы остатков:

\(\sum_{i=1}^{n} e^2 = \sum_{i=1}^{n}(y - \hat y)^2\)

Формулы коэффициентов по методу наименьших квадратов получаются равнымм:

\(b_{1_{xy}} = \frac{sd_y}{sd_x} r_{xy}\)

\(b_o = \bar y - b_{1_{xy}}\bar x\)

При подсчете коэффициентов первым высчитывается \(b_1\), и он, как видно из формулы, зависит от величины вариативности данных по переменным x и y (стандартных отклонений или дисперсий). В случае равной вариативности \(b_1\) является коэффициентом корреляции \(r_{xy}\)

11.2.2 Коэффициент детерминации и доля объясненной изменчивости

В линейной регрессии, так же, как и в ANOVA, коэффициент детерминации говорит о проценте объясненной изменчивости, то есть как хорошо наша регрессионная модель объясняет изменчивость зависимой переменной.

Так же, как и в ANOVA, сумма квадратов SST складывается из межгрупповой суммы квадратов (SSE, Sum of Squares Explained или SSB, Sum of Squares Between groups) и внутригрупповой (SSR, Sum of Squares Random или SSW, Sum of Squares Within groups).

\(SST = SSE + SSR\)

Общая изменчивость считается от прямой со средним значением y.

\(SST = \sum_{i=1}^n (\bar y - y_i)^2\)

По картинке видно, что

\(SSE = \sum_{i=1}^n (\bar y - \hat y_i)^2\)

Остаточная изменчивость:

\(SSR = \sum_{i=1}^n (y_i - \hat y_i)^2\)

Для того, чтобы оценить, насколько хороша модель, мы снова прибегаем к коэффициенту детерминации:

\(R^2 = \frac{SSE}{SST} = 1 - \frac{SSR}{SST}\)

Коэффициент детерминации можно рассматривать как размер эффекта – и это ни что иное, как уже знакомая нам \(\eta^2\)!

\(\eta^2 = \frac{SSE}{SST}\)

В линейном регрессионном анализе коэффициент детерминации рассматривается еще и как степень корреляции между исходными значениями переменной \(y\) и предсказанными \(\hat y\). И как мы помним, он же равен квадрату корреляции между исходными значениями переменной \(y\) и предсказанными \(\hat y\):

\(R^2 = r_{xy}^2 = \frac{\text{cov(x, y)}}{sd_x sd_y} = \frac{\sum_{i=1}^n (x_i - \bar x) (y_i - \bar y )}{(n-1)sd_x sd_y}\)

11.2.3 Регрессионный анализ (тестирование коэффициентов регрессии)

Регрессионный анализ – интересная штука, так как состоит из нескольких слоев, которые берут что-то от ANOVA, а что-то – от корреляционногоо анализа. Тестирование значимости коэффициентов проводится на основании критерия, принадлежащего семейству Т-распределений, так же, как и корреляционный анализ. А тестирование всей модели целиком проводится с использованием F-критерия, так же, как и ANOVA. Нас в регрессионном анализе больше интересует тестирование значимости коэффициентов – так как именно по коэффциентам, с которыми берутся факторы в модели, мы определяем, является влияние этих факторов значимым.

Число степеней свободы рассчитывается по формуле:

\(df = n - 2\), n – число наблюдений

Уравние модели:

\(\hat y = b_o + b_1x\)

Нулевая и альтернативная гипотезы:

\(H_0\): \(b_{1_{xy}} = 0\)

\(H_1\): \(b_{1_{xy}} \neq 0\)

Ключевой статистикой для коэффициентов является Т-значение, оно вычисляется по формуле:

\(T = \frac{b_1}{se}\)

11.2.4 Множественный регрессионный анализ

Множественный регрессионный анализ – подразумевает все то же самое, только появляются новые предикторы (независимые переменные, они же факторы)

\(\hat y = b_o + b_1x_1 + b_2x_2 + ... + b_nx_n\)

11.2.5 Допущения для регрессионного анализа

(ЗП и НП измерены в количественной или порядковой шкале)

  1. Распределение НП по ЗП линейно – нет картины нелинейной взаимосвязи или скоплений данных в разных местах.
  2. Остатки (residuals) варьируются примерно одинаково вдоль всей прямой – гомогенность (или гомоскедастичность, homoscedasticity) остатков. Проверяется тестом чаще всего по диагностичекой диаграмме рассеяния с распределением остатков (residuals) по предсказанным значениям (fitted values)
  3. Остатки (residuals) распределены нормально – все то же самое, как здесь, только для остатков (график плотности вероятности для остатков или QQ-plot)
  4. Для множественной линейной регрессии – отсутствие мультиколлинеарности (сильной корреляции между независимыми переменными). Проверяется с помощью теста VIF (“показателя вздутия дисперсии”)

Примеры диагностических графиков для остатков: https://gallery.shinyapps.io/slr_diag/

11.2.6 Расчет регрессионного анализа

Когда мы проводим расчет регрессионного анализа, у нас в результате получается табличка вроде этой:

Обозначение Коэффициент Статистика SE p-value
\(b_0\) Intercept \(t_{b0}\) \(SE_{b0}\) \(p_{b0}\)
\(b_1\) Коэф для фактора1 \(t_{b1}\) \(SE_{b1}\) \(p_{b1}\)
(если есть) \(b_2\) (если есть) Коэф для фактора2 \(t_{b2}\) \(SE_{b2}\) \(p_{b2}\)
(если есть) \(b_3\) (если есть) Коэф для фактора3 \(t_{b3}\) \(SE_{b3}\) \(p_{b3}\)

Так же, как и везде, нас интересуют в первую очередь значение статистики (t-значение), уровень значимости (p-value) и здесь нас еще интересует само значение коэффициентов. В случае значимости (p-value < alpha), то есть получения результата, что данный фактор значимо влияет на изменчивость данных, и мы можем построить регрессионную прямую – мы будем записывать уравнение регрессионной прямой на основании этих значений:

\(\hat y\) = Intercept + Коэф для фактора1 * Фактор1 + Коэф для фактора2 * Фактор2 + Коэф для фактора3 * Фактор3

Для примера возьмем другой датасет с данными об информации курсов Udemy

id title is_paid price num_subscribers avg_rating num_reviews num_comments num_lectures content_length_min published_time last_update_date category subcategory topic language course_url instructor_name instructor_url price_log num_subscribers_log
3748356 Fundamentals of French Pastry- Madeleine, Custards and Cakes TRUE 29.99 340 4.700000 31 11 30 89 2021-01-30 01:29:38 2022-02-22 Lifestyle Food & Beverage Baking English /course/fundamentals-of-french-pastry-level-1/ Shubranshu Bhandoh /user/shubranshubhandohgmailcom/ 3.400864 5.828946
4430390 Automate Linux in Cloud with Ansible in 100+ examples TRUE 19.99 3 0.000000 0 0 101 912 2021-12-06 02:39:42 2022-08-18 IT & Software Other IT & Software Ansible English /course/automate-linux-in-cloud-with-ansible-by-examples/ Luca Berton /user/luca-berton-3/ 2.995232 1.098612
1751882 Create custom Alexa skill using AWS Lambda function TRUE 24.99 1675 3.800000 26 11 38 232 2018-06-19 02:33:13 2018-06-19 Development Software Engineering Alexa Development English /course/create-custom-alexa-skill-using-aws-lambda-function/ Nilay Mehta /user/nilay-mehta-3/ 3.218476 7.423568
1451180 Rules of Composition TRUE 29.99 166 4.500000 23 9 11 137 2017-12-05 19:16:43 2017-11-29 Photography & Video Photography Photography Composition English /course/rules-of-composition/ David Wells /user/david-wells-12/ 3.400864 5.111988
3309100 Fundamentos da Qualidade TRUE 79.90 11 4.642857 7 2 16 186 2020-07-15 14:40:46 2020-07-10 Personal Development Career Development Quality Management Portuguese /course/fundamentos-da-qualidade/ Carlos Barbosa - WGB /user/carlos-henrique-s-barbosa/ 4.380776 2.397895
2452090 Enhance Your Communication Skills TRUE 19.99 9 4.500000 3 1 11 34 2019-08-27 01:05:53 2019-07-09 Personal Development Personal Productivity Communication Skills English /course/enhance-your-coummuncations/ Kevin Charles /user/kevin-charles-16/ 2.995232 2.197225
3166284 Sıfırdan Google Earth Pro Öğrenin TRUE 169.99 515 4.700000 34 5 28 213 2020-05-27 07:43:45 2021-02-20 IT & Software Other IT & Software Google Earth Turkish /course/googleearthpro/ Ahmet kargın /user/ahmet-kargin/ 5.135740 6.244167
1551526 The Relationship Reconstruction Course TRUE 89.99 32 3.500000 3 1 19 135 2018-02-19 21:39:51 2018-02-18 Personal Development Parenting & Relationships Relationship Building English /course/architecting-your-relationship/ Lionel T. & Kim R. Grimes /user/kim-r-grimes/ 4.499699 3.465736
2576084 Cute and Kawaii Halloween Illustration Drawing TRUE 39.99 154 4.450000 27 11 24 88 2019-09-26 23:55:58 2022-09-16 Design Graphic Design & Illustration Cartoon Drawing English /course/cute-and-kawaii-halloween-illustration-drawing/ Ecky O /user/ecky-oesjady/ 3.688629 5.036953
1965910 TIA Portal for S7-1200 PLC Analog Programming (PLC-SCADA-11) TRUE 74.99 228 4.450000 43 10 22 245 2018-10-16 00:16:40 2020-12-22 IT & Software Hardware Siemens TIA Portal English /course/siemens-tia-portal-for-s7-1200-plc-analog-programming/ Goeduhub Technologies /user/goeduhub-learning-solutions/ 4.317355 5.429346

И попробуем построить модель стоимости курса по количеству студентов (вы могли не заметить, но вот мы приблизились вплотную к реальным задачам, которые решают аналитики данных)

Спойлер: так как это реальные данные, то пришлось повозиться с их предобработкой, и даже после этого лучший вариант построения модели выглядит на них так: Здесь очевидно, что модель будет плохо работать. Возьмем еще один неудачный пример для построения регрессионных моделей:

Поэтому идею предсказать цену и рейтинг мы пока отбросим и перейдем к более прозаичной – построим модель длительности курса от количества лекций.

  1. Гипотеза: длительность content_length_min определяется количеством лекций num_lectures

content_length_min ~ num_lectures

  1. Формулируем нулевую гипотезу:

Коэффициент \(b_1\) для num_lectures не должен быть равен нулю (то есть num_lectures влияет на вариативность данных)

\(H_0\): \(b_{1_{xy}} = 0\)

\(H_1\): \(b_{1_{xy}} \neq 0\)

  1. Зафиксируем, что будем проверять гипотезу на уровне \(\alpha = 0.05\)

  2. Выберем статистический критерий для проверки. Посмотрим, насколько линейно распредены переменные и остатки:

Не самый лучший вариант, но с этим уже можно работть (почему? в чем отличие от предыдущей кртинки?)

  1. Строим регрессионную модель и проводим регрессионный анлиз, смотрим на значимость коэффициентов
## 
## Call:
## lm(formula = udemy_model$content_length_min ~ udemy_model$num_lectures)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -131.27  -45.95  -13.63   41.22  166.80 
## 
## Coefficients:
##                          Estimate Std. Error t value            Pr(>|t|)    
## (Intercept)               82.2644     5.1237   16.06 <0.0000000000000002 ***
## udemy_model$num_lectures   2.1397     0.1897   11.28 <0.0000000000000002 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 61.33 on 500 degrees of freedom
## Multiple R-squared:  0.2029, Adjusted R-squared:  0.2013 
## F-statistic: 127.3 on 1 and 500 DF,  p-value: < 0.00000000000000022
  1. Интерпретируем результаты: чему равно p-value для коэффициента num_lectures? Видим, что оно очень маленькое и явно меньше зявленного уровня alpha – то есть коэффициент значим, наша гипотеза о том, что количество уроков определяет длительность курса, подтвердилось, ура! Чему равно само значение коэффиента? Примерно 2.16. То есть с увеличением количества уроков на 1 длина курса будет увеличиваться на 2.16 минуты! Чему равен \(R^2\)? Он равен 0.19, что в целом вообще-то не очень много, но уже результат. То есть, 19% изменчивости наших данных по длительности курса определяются количеством уроков!

Уравнение регрессионной прямой я теперь могу записать так:

\(\hat content\_length\_min = 81.94 + 2.16 \times num\_lectures\)

Проведем тот же анализ, но с учетом нескольких факторов (предикторов). Предположим, что длительность курса также объясняется числом подписчиков num_subscribers

model_length2 <- lm(udemy_model$content_length_min ~ udemy_model$num_lectures + udemy_model$num_subscribers_log) 
summary(model_length2)
## 
## Call:
## lm(formula = udemy_model$content_length_min ~ udemy_model$num_lectures + 
##     udemy_model$num_subscribers_log)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -131.59  -46.49  -13.44   41.29  168.49 
## 
## Coefficients:
##                                 Estimate Std. Error t value            Pr(>|t|)
## (Intercept)                      84.5443     7.9297  10.662 <0.0000000000000002
## udemy_model$num_lectures          2.1501     0.1918  11.208 <0.0000000000000002
## udemy_model$num_subscribers_log  -0.5213     1.3829  -0.377               0.706
##                                    
## (Intercept)                     ***
## udemy_model$num_lectures        ***
## udemy_model$num_subscribers_log    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 61.38 on 499 degrees of freedom
## Multiple R-squared:  0.2031, Adjusted R-squared:  0.1999 
## F-statistic:  63.6 on 2 and 499 DF,  p-value: < 0.00000000000000022

Что можно сказать про эти результата? Оба ли коэффициента значимы?