3 Данные и типы шкал

3.1 Измерение и переменная

Что значит измерить что-либо? Это значит, привести в соответствие исследуемому признаку какое-либо значение на шкале.

Что может быть примером признака? Что угодно, что нам нужно измерить в рамках исследования: количество кружек кофе в день, уровень концентрации, количество ошибок, время реакции, степень выгорания, количество выполненных задач, уровень нейротизма, рейтинг студента, количество детей в семье, температура и т.д.

Признак, который мы исследуем, по-другому называется переменной. С этим понятием мы будем сталкиваться постоянно в анализе данных. По сути, если мы посмотрим на табличку наблюдений, то любой столбец с измерениям – это переменная. По строкам располагаются наблюдения, например, каждый новый человек из нашей выборки. Значение в определенной колонке – это значение переменной данного наблюдения.

Вернемся к кейсу с Никитой, которые изучает выгорание сотрудников ВУЗов. Сделаем табличку данных, которые мог намерить Никита.

library(tidyverse)
library(kableExtra)
teacher_number <- seq(1,30,1)
age <-  sample(22:60, size = 30, replace = T)
exp_years <- sample(1:8, size = 30, replace = T)
exp_scaled <- ifelse(exp_years >= 1 & exp_years <= 2, "от 1 до 2",
                     ifelse(exp_years > 2 & exp_years <= 5, "от 3 до 5",
                            ifelse(exp_years > 5, "больше 5", exp_years)))
burnout_MBI <- sample(19:70, size = 30, replace = T)
univer <-  rep(c("MSU", "HSE", "MSU", "RANEPA", "HSE", "RANEPA"),5)
burnout <- tibble(teacher_number, age, exp_years, exp_scaled, burnout_MBI, univer)
kable(burnout[1:10,])
teacher_number age exp_years exp_scaled burnout_MBI univer
1 51 5 от 3 до 5 26 MSU
2 54 3 от 3 до 5 65 HSE
3 56 3 от 3 до 5 63 MSU
4 30 6 больше 5 33 RANEPA
5 58 3 от 3 до 5 42 HSE
6 50 2 от 1 до 2 50 RANEPA
7 49 1 от 1 до 2 60 MSU
8 50 5 от 3 до 5 44 HSE
9 56 3 от 3 до 5 42 MSU
10 22 6 больше 5 27 RANEPA

Что здесь будет являться переменными?

В определении измерения помимо признака есть второе важное понятие – это шкала.

Шкала – это система измерения. Для того, чтобы мы все могли пользоваться одинаковыми единицами измерениями и не сходили с ума, мы, люди планеты Земля, пользуемся едиными шкалами. Всего их 4, и они бывают метрические и неметрические – то есть, можем ли мы приложить измерительную линейку к ним или нет. В качестве измерительной линейки здесь имеется в виду любой условный прибор, в котором есть цена деления (сантиметр, грамм, секунда, штука).

3.2 Количественные и неколичественные данные

Данные, измеренные метрическими шкалами – это количественные данные (например, рост, вес, число заболевших, температура. То, что нельзя измерить метрическими шкалами (например, цвет глаз, самочувствие, уровень нейротизма, уровень образования) – это неколичественные данные, которые могут носить разные названия: категориальные, иногда качественные.

Иногда данные называют качественными в противоположность количественным, но это не совсем верно: разделение на количественные и качественные обычно применяется по отношению к типам исследований, где качественные исследования – это, например, интервью или анализ блоков текста. Но в результате этого анализа у нас вполне могут получиться количественные переменные, например, количество раз, которые употреблялось то или иное слово, поэтому по отношению к данным, а не типам исследований, я рекомендую не использовать слово “качественные”.

С количественными данными попроще – это все, что можно измерить метрической шкалой, условной линейкой.

Среди неколичественных данных встречаются два типа: категориальные и ранговые (порядковые)

Эти данные мы подробно рассмотрим на шкалах.

3.3 Типы шкал

Как мы уже поняли, разные данные относятся к разным шкалам.

Разные шкалы обладают разной измерительной мощностью – точностью, с которой мы измеряем признак. Один и тот же признак можно измерить с разной точностью: например, в зависимости от исследовательского вопроса, рост может быть выражен количественно в сантиметрах на интервале {0; ∞}, а может быть закодирован в виде {“меньше 150 см”; 150 см и больше}, если нас интересует только преобладание над определенной чертой.

Всего существуют 4 шкалы, если располагать их снизу вверх по измерительной мощности: наименований, порядковая, интервальная, отношений.

Шкала Описание Возможные операции Примеры
Отношений (абсолютная) Количественная, есть абсолютный ноль, можно посчитать и на сколько больше или меньше, и во сколько раз =, \(\neq\), >, <, +, -, ×, ÷ Рост, вес, число заболевших
Интервальная (разности) Количественная, но нет абсоолютного нуля, можно посчитать на сколько больше или меньше, но нельзя посчитать, во сколько раз =, \(\neq\), >, <, +, - Температура в градусах Цельсия, времяисчисление по разным календарям
Порядковая (ранговая, ординальная) Категориальная (качественная), можно установить “больше” или “меньше”, но нельзя посчитать количественно, на сколько больше или меньше =, \(\neq\), >, < Уровень образования, уровень нейротизма, спортивный рейтинг
Наименований (номинальная) Категориальная (качественная), нельзя установить “больше” или “меньше” =, \(\neq\) Пол, цвет, место жительства, название университета

3.4 Непрерывные и дискретные данные

Видим, что самые богатые возможности для измерений у нас простираются в количественных шкалах – на шкале отношений (она самая крутая) и интервальной шкале (она похуже и вообще, на самом деле, в исследованиях в нашей области встречается редко).

Количественные данные бывают дискретные, когда переменная принимает строго определенные значения, и непрерывные, когда может принимать какие угодно значения, до бесконечности или на заданном интервале.

Например, в нашем примере с исследованием выгорания переменная возраст (age) может принимать любые значения: преподаватели могут быть и возраста 25 лет, и 27.5 лет, и 31.666.. лет – это все значения из области допустимых значений для этой переменной. Но если мы рассмотрим количество заболевших коронавирусом, то их никак не может быть 27.5 или 31.666.. – заболевшие не выражаются в дробных долях от одного человека.

Важное понятие здесь – область допустимых значений. У непрерывной переменной это всегда интервал, например {0;+∞}, у дисретных – строго определенные значения, которые, тем не менее, могут тоже стремиться к бесконечности, например, {0;1;2;3;4;5;6;7;8…}

3.5 Как определить, в какой шкале данные?

Это довольно непростой вопрос, и первое время с ответом на него возникают большие трудности (и это нормально). Сложнее всего бывает отличить порядковую шкалу от интервальной, и с точки зрения теории измерений это установление – совсем непростая задача. С классической интервальной шкалой вроде температуры в градусах Цельсия или шкалы летоисчисления мы в наших исследованиях сталкиваемся редко, а вот данные сумм балл опросников, чаще всего, тоже относятся к интервальной, хоть и обладают скорее свойствами порядковой (сложно сказать, что между 20 и 30 баллами по шкале тревожнсти Бэка ровно такой же интервал тревожности, как и между 60 и 70 баллами). Мы скорее отнесем ее к порядковой за счето того, что делений на этой шкале очень много (больше, чем когда мы оцениваем что-то по шкале от 1 до 5), и не хочется ограничивать себя статистическими методами, пригодными для работы только с порядковой шкалой и не выше. В остальных случае определение шкалы чуть полегче. Я предлагаю первое время использовать такой упрощенный алгоритм определения шкалы:

  1. Есть ли среди значений переменной буквенные? Если да, это либо номинативная шкала, либо порядковая.

  2. Можем ли мы расположить эти буквенные значения в определенном порядке по шкале х? Изменится ли что-то, если мы поменяем соседние значения местами? Если да – это порядковая шкала, если нет – номинативная (например, названия ВУЗов я могу расположить в любом порядке, а места, которые заняли в соревнованиях, только в порядке 1-2-3, перемена 1-3-2 рушит смысл)

  3. Если на (1) вопрос ответили нет, и буквенных значений нет – можно ли заменить цифры буквами, и от этого ничего не поменяется? Если да, то это также номинативная шкала (например, ID испытуемого)

  4. Если букв нет и цифры в данных нельзя заменить буквами, это может быть либо порядковая шкала, либо интервальная шкала, либо шкала отношений

  5. Равны ли интервалы на шкале в разных местах? В интервал, например, 20 до 30 будет входить ровно такое же число значений, как и в интервал от 50 до 60? Если нет, это порядковая шкала, если да – либо интервальная, либо шкала отношений.

  6. Есть ли абсолютный ноль на шкале? Не абсурдно ли звучат выражения “значение 1” во столько-то раз больше или меньше чем “значение 2”? Если да, то это шкала отношений, если нет – интервальная. Готово!