Определение, типы и анализ ранжированных данных

Ранжированные данные

Ранжированная переменная — это переменная, имеющая порядковый номер (т. е. 1-е, 2-е, 3-е и т. д.). Хотя точное значение переменной может быть неизвестно, ее место относительно других известно. Ранжированные — это данные, которые сравнивались с другими фрагментами и которым было присвоено «место» относительно этих других фрагментов данных. Например, чтобы ранжировать числа 7,6, 2,4, 1,5 и 5,9 от меньшего к большему, 1,5 — первое, 2,4 — второе, 5,9 — третье, а 7,6 — четвертое. Числа в этом наборе (7,6, 2,4, 1,5, 5,9) являются ранжированными, а порядковые номера, используемые для их ранжирования (1-е, 2-е, 3-е, 4-е), являются ранжированными переменными.

Ранжированные данные имеют множество применений, в том числе:

  • Спорт: Большинство спортивных клубов (таких как НФЛ, ФИФА и велогонки) ранжируют свои команды или спортсменов, чтобы определить, кто выйдет на финальный матч.
  • Политика. Существует множество мировых рейтингов, включая образование, окружающую среду и технологии.
  • Поисковые системы: Поисковые системы Яндекс или Google выдают результаты на основе того, что они считают важным и релевантным для поиска.

Ранжированные данные важны, когда нужно знать, как каждый фрагмент соотносится с другими в наборе. Это также важно для некоторых статистических цифр, таких как коэффициент ранговой корреляции Спирмена.

Типы рейтинга

Существует три основных типа рейтинга: стандартный рейтинг соревнований, порядковый рейтинг и дробный рейтинг.

Стандартный рейтинг соревнований

Стандартный рейтинг соревнований — это система ранжирования, в которой людям или командам в таблице лидеров присваиваются позиции с учетом возможности возникновения ничьих. Часто число «1224» появляется в круглых скобках с названием этого типа ранжирования, указывая на то, что элементы, имеющие одинаковое значение, получают одинаковый рейтинг. Другими словами, когда два человека или команды имеют равный результат, они получают один и тот же ранг. Например, предположим, что следующие дайверы имеют такие оценки:

Дайвер оценки

Дайвер: А, Б, С, D; Оценка: 9,8, 7,9, 7,9, 6,2.

Рейтинги дайверов будут 1, 2, 2, 4, причем два дайвера с результатом 7,9 занимают второе место.

Этот тип ранжирования предпочтителен, поскольку ясно видно, что есть ничья. Однако это может затруднить полный анализ данных или сравнение значений.

Порядковый рейтинг

Порядковое ранжирование — это система, в которой элементы ранжируются/упорядочиваются и могут быть классифицированы только как выше или ниже других элементов в наборе. В порядковом ранжировании нет никаких связей, и в окончательном ранжировании нет указания на степень/величину расстояния между элементами. «1234» обычно сопровождает название этого типа рейтинга, что означает, что каждый элемент данных получает уникальный или другой рейтинг, даже в случае равенства. Используя в качестве примера результаты дайверов, представьте, что они имеют следующие ранги:

Дайвер ранжирование

Дайвер: А, Б, С, D; Оценка: 9,8, 7,9, 7,9, 6,2.

Поскольку дайверы B и C имеют одинаковый балл, рейтинги могут быть 1, 2, 3, 4 или 1, 3, 2, 4. Не имеет значения, какое место получат прыгуны B и C.

Этот тип рейтинга также часто встречается в опросах по шкале Лайкерта, где респонденты дают ответ от 1 до 5, где 1 может быть наименее удовлетворенным, а 5 — наиболее удовлетворенным.

Преимущества порядкового ранжирования заключаются в том, что значения данных легко сравнивать и что это упрощает анализ. Если известны только рейтинги, недостатком порядкового ранжирования является то, что фактические значения могут иметь связь (или две), и это не будет очевидно на основе ранжирования.

Дробный рейтинг

Дробный рейтинг аналогичен стандартному рейтингу соревнований, но в случае ничьей вместо того, чтобы предметы получали одинаковый рейтинг, соответствующие ранги усредняются. Посмотрите еще раз на ранги дайверов:

Дайвер ранжирование

Дайвер: А, Б, С, D; Оценка: 9,8, 7,9, 7,9, 6,2.

Две оценки 7,9 будут присвоены 2 и 3. Вместо того, чтобы одновременно получать 2 или произвольно присваивать 2 одному дайверу и 3 другому, оценки будут усреднены вместе (

2+32=2.5

, и результат каждого дайвера будет иметь такое же значение. Следовательно, ранги будут 1, 2,5, 2,5, 4. Этот тип ранжирования используется при расчете коэффициента корреляции рангов Спирмена.

Эти ранжированные данные представляют собой почти компромисс между стандартным соревнованием и порядковым рейтингом. Обычно ясно, когда имеется связь, и фактическое ранжирование является более точным при анализе данных, чем присвоение одинакового ранжирования каждому элементу. Недостатком является то, что в зависимости от равенства могут быть рейтинги, которые больше не являются натуральными числами (или положительными целыми числами).

Анализ ранжированных данных

Что будет дальше после того, как данные будут ранжированы? Следующий шаг – их анализ. Существует множество статистических тестов, которые могут помочь в анализе ранжированных данных, в том числе: коэффициент ранговой корреляции Спирмена, тест Фридмана и тест суммы знаковых рангов Уилкоксона.

Коэффициент ранговой корреляции Спирмена

Это, по сути, коэффициент корреляции момента произведения (PMCC) рангов набора. Он показывает, насколько одна переменная увеличивается или уменьшается по мере уменьшения другой переменной. Значения варьируются от -1 (уменьшение) до 1 (увеличение). Чтобы найти значение, сначала проранжируйте данные, используя дробное ранжирование, а затем поместите ранжированные данные в калькулятор или статистическую программу.

Тест Фридмана

Тест Фридмана используется для выявления различий в лечении при трех разных введениях. Он проверяет, имеют ли методы лечения одинаковые или разные эффекты, что также является нулевой гипотезой для теста. Начните тест с ранжирования по трем попыткам, а затем суммирования рейтингов каждой попытки. Большинство пакетов статистического программного обеспечения могут запустить этот тест и рассчитать статистику FM, поскольку выполнение расчетов вручную требует много времени. Чтобы определить, следует ли принять или отклонить нулевую гипотезу, сравните статистику теста FM с критическим значением FM. Если статистика теста превышает критическое значение, отклоните нулевую гипотезу.

Критерий суммы знаковых рангов Уилкоксона

Критерий суммы знаковых рангов Уилкоксона, также называемый критерием знаковых рангов Уилкоксона, сравнивает два набора данных. На самом деле существует две версии этого теста:

  • Знаковый ранговый критерий Уилкоксона, который сравнивает выборочную медиану с гипотетической.
  • Знаковый ранговый тест Уилкоксона для сопоставленных пар, который сначала проверяет различия между значениями, а затем следует процедуре знакового рангового теста.

Этот тест начинается с нулевой гипотезы, утверждающей, что медианы двух выборок равны. Тест можно запустить в Excel или вручную. В конце сравните статистику теста с критическим значением, чтобы определить, принять или отклонить нулевую гипотезу. Если статистика теста меньше критического значения, отклоните нулевую гипотезу.

Чтобы разблокировать этот урок, вы должны быть участником Study.com. Создать аккаунт

Краткие итоги урока

Ранжированные данные — это те, которые сравнивались с другими фрагментами и которым было присвоено «место» относительно этих других фрагментов данных. Ранжированная переменная — это переменная, имеющая порядковый номер (т. е. 1-е, 2-е, 3-е и т. д.). Существует три основных способа ранжирования:

  • Стандартный рейтинг соревнований (1224): в случае ничьей все равные точки данных получают одинаковый рейтинг.
  • Порядковый ранг (1234): в случае равенства связанные значения получают уникальный ранг.
  • Дробный (1, 2,5, 2,5, 4): в случае равенства рассматриваемые ранги усредняются, и обе точки данных получают это значение.

Все три имеют свои преимущества и недостатки, поэтому какой из них использовать, зависит от используемых данных, того, как должны выглядеть результаты и/или как данные будут анализироваться.

Существует несколько тестов для анализа ранжированных данных, включая, помимо прочего: коэффициент ранговой корреляции Спирмена, тест Фридмана и тест суммы знаковых рангов Уилкоксона.

Часто задаваемые вопросы

Что такое рейтинг в анализе данных?

Ранжирование в статистике и анализе означает упорядочивание точек данных от наименьшего к наибольшему (или наоборот) и присвоение каждой точке порядкового номера (т. е. 1, 2, 3, …).

Как вы сравниваете ранжированные данные?

Существует несколько статистических тестов для сравнения ранжированных данных, включая коэффициент ранговой корреляции Спирмена, тест Фридмана и тест суммы знаковых рангов Уилкоксона.

Как ранжировать данные в статистике?

Существует три основных способа ранжирования в статистике: стандартный («1224»), порядковый («1234») и дробный рейтинг («1 2,5 2,5 4»).

Поделитесь материалом
Автор статьи: Наталья Венедиктова
Наталья Венедиктова
Историк-исскусствовед, специалист в области истории, географии и искусства. Много путешествовала, изучала эволюцию художественных стилей, культурные контексты произведений и влияние искусства на общественные и исторические процессы.
Наталья Венедиктова опубликовал статей: 315

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *