Рейтинговая система Эло - Elo rating system

Арпад Эло , изобретатель рейтинговой системы Эло

Система рейтинга Эло - это метод расчета относительного уровня навыков игроков в играх с нулевой суммой, таких как шахматы . Он назван в честь его создателя Арпада Эло , венгерско-американского профессора физики.

Система Эло была первоначально изобретена как улучшенная шахматная рейтинговая система по сравнению с ранее использовавшейся системой Харкнесса , но также используется в качестве рейтинговой системы в ассоциативном футболе , американском футболе , баскетболе , Высшей лиге бейсбола , настольном теннисе , настольных играх, таких как Scrabble и Дипломатия и киберспорт , особенно Counter Strike: Global Offensive и League of Legends .

Разница в рейтингах двух игроков служит предиктором исхода матча. Ожидается, что два игрока с равным рейтингом, которые играют друг против друга, одержат одинаковое количество побед. Ожидается, что игрок, чей рейтинг на 100 очков выше, чем у его соперника, наберет 64%; если разница составляет 200 очков, то ожидаемый результат для более сильного игрока составляет 76%.

Рейтинг Эло игрока представлен числом, которое может меняться в зависимости от результата сыгранных рейтинговых игр. После каждой игры победивший игрок забирает очки у проигравшего. Разница между рейтингами победителя и проигравшего определяет общее количество очков, набранных или потерянных после игры. Если побеждает игрок с высоким рейтингом, то у игрока с низким рейтингом будет снято только несколько рейтинговых очков. Однако, если игрок с более низким рейтингом одержит неудачную победу , многие рейтинговые очки будут перенесены. Игрок с более низким рейтингом также получит несколько очков от игрока с более высоким рейтингом в случае ничьей. Это означает, что данная рейтинговая система самокорректируется. Игроки, чьи рейтинги слишком низкие или слишком высокие, должны, в конечном итоге, иметь лучшие или худшие результаты соответственно, чем прогнозирует система рейтингов, и, таким образом, набирать или терять рейтинговые очки до тех пор, пока рейтинги не будут отражать их истинную игровую силу.

Рейтинг Elo является только сравнительным рейтингом и действителен только в пределах рейтингового пула, в котором он был установлен.

История

Арпад Эло был мастером шахмат и активным участником Шахматной федерации США (USCF) с момента ее основания в 1939 году. USCF использовала систему числовых рейтингов, разработанную Кеннетом Харкнессом , чтобы члены могли отслеживать свой индивидуальный прогресс в шахматах. условия, отличные от побед и поражений в турнирах. Система Харкнесса была достаточно справедливой, но в некоторых обстоятельствах приводила к получению оценок, которые многие наблюдатели сочли неточными. От имени USCF Эло разработал новую систему с более надежной статистической базой.

Система Эло заменила более ранние системы конкурентных вознаграждений системой, основанной на статистической оценке. Системы рейтингов для многих видов спорта присуждают баллы в соответствии с субъективными оценками «величия» определенных достижений. Например, победа в важном турнире по гольфу может стоить произвольно выбранных в пять раз больше очков, чем победа в меньшем турнире.

В статистике, напротив, используется модель, которая связывает результаты игры с базовыми переменными, представляющими способности каждого игрока.

Центральное предположение Эло заключалось в том, что шахматные результаты каждого игрока в каждой игре - это нормально распределенная случайная величина . Хотя игрок может играть значительно лучше или хуже от одной игры к другой, Эло предположил, что среднее значение производительности любого данного игрока со временем меняется очень медленно. Эло считал истинное мастерство игрока средним значением случайной переменной его производительности.

Дальнейшее предположение необходимо, потому что результаты в шахматах в указанном выше смысле все еще не поддаются измерению. Невозможно посмотреть на последовательность ходов и вывести число, представляющее навыки этого игрока. О производительности можно судить только по победам, ничьим и поражениям. Следовательно, если игрок выигрывает игру, предполагается, что он продемонстрировал более высокий уровень, чем его оппонент в этой игре. И наоборот, если игрок проигрывает, предполагается, что он выступил на более низком уровне. Если игра заканчивается вничью, предполагается, что оба игрока выступили примерно на одном уровне.

Эло не уточнил, насколько близкими должны быть две игры, чтобы они закончились ничьей, а не победой или поражением. И хотя он полагал, что вполне вероятно, что у игроков могут быть разные стандартные отклонения в своих выступлениях, он сделал упрощающее предположение об обратном.

Чтобы еще больше упростить вычисления, Эло предложил простой метод оценки переменных в его модели (т.е. истинного мастерства каждого игрока). По таблицам относительно легко можно рассчитать, сколько игр игроки могут выиграть, сравнивая их рейтинги с рейтингами их оппонентов. Рейтинги игрока, выигравшего больше игр, чем ожидалось, будут скорректированы в сторону повышения, а рейтинги игрока, выигравшего меньше, чем ожидалось, будут скорректированы в сторону понижения. Более того, эта корректировка должна быть линейно пропорциональной количеству выигрышей, на которые игрок превысил или не достиг своего ожидаемого количества.

С современной точки зрения, упрощающие предположения Эло не нужны, потому что вычислительные мощности недорогие и широко доступны. Несколько человек, в первую очередь Марк Гликман , предложили использовать более сложный статистический аппарат для оценки одних и тех же переменных. С другой стороны, вычислительная простота системы Эло оказалась одним из ее главных достоинств. С помощью карманного калькулятора информированный шахматный участник может рассчитать с точностью до одного пункта, каким будет его следующий официально опубликованный рейтинг, что помогает сформировать представление о том, что рейтинги являются справедливыми.

Реализация схемы Эло

USCF реализованы предложения ELO в 1960 году, и система быстро получила признание как более справедливые и более точные , чем системы оценки Harkness . Система Эло была принята Всемирной шахматной федерацией (ФИДЕ) в 1970 году. Эло подробно описал свою работу в книге «Рейтинг шахматистов прошлого и настоящего» , опубликованной в 1978 году.

Последующие статистические тесты показали, что шахматные результаты почти наверняка не распределяются как нормальное распределение , поскольку более слабые игроки имеют больше шансов на победу, чем предсказывает модель Эло. Поэтому USCF и некоторые шахматные сайты используют формулу, основанную на логистическом распределении . Значительные статистические аномалии также были обнаружены при использовании логистического распределения в шахматах. ФИДЕ продолжает использовать таблицу разницы рейтингов, предложенную Эло. Таблица рассчитана с математическим ожиданием 0 и стандартным отклонением 200.

Нормальные и логистические точки распределения - это в некотором смысле произвольные точки в спектре распределений, которые будут хорошо работать. На практике оба этих дистрибутива очень хорошо работают для ряда различных игр.

Различные системы рейтингов

Фраза «рейтинг Эло» часто используется для обозначения шахматного рейтинга игрока, рассчитанного ФИДЕ. Однако такое использование сбивает с толку и вводит в заблуждение, потому что общие идеи Эло были приняты многими организациями, включая USCF (до ФИДЕ), многие другие национальные шахматные федерации, недолговечную Профессиональную шахматную ассоциацию (PCA) и онлайн-шахматные серверы, включая Internet Chess Club (ICC), Free Internet Chess Server (FICS) и Yahoo! Игры. Каждая организация имеет уникальную реализацию, и ни одна из них не следует в точности исходным предложениям Эло. Было бы правильнее называть все вышеперечисленные рейтинги рейтингами Эло, а ни один из них - рейтингом Эло.

Вместо этого можно обратиться к организации, присвоившей рейтинг. Например: «По состоянию на август 2002 года у Григория Кайданова был рейтинг ФИДЕ 2638 и рейтинг USCF 2742.» Рейтинги Эло этих различных организаций не всегда напрямую сопоставимы, поскольку рейтинги Эло измеряют результаты в рамках закрытого пула игроков, а не абсолютного мастерства. Существуют также различия в том, как организации применяют рейтинги Эло.

Рейтинги ФИДЕ

Для лучших игроков самый важный рейтинг - это рейтинг ФИДЕ . ФИДЕ опубликовала следующие списки:

  • С 1971 по 1980 год выпускался один список в год.
  • С 1981 по 2000 год выпускалось два списка в год, в январе и июле.
  • С июля 2000 г. по июль 2009 г. выпускалось четыре списка в год: в начале января, апреля, июля и октября.
  • С июля 2009 г. по июль 2012 г. выпускалось шесть списков в год в начале января, марта, мая, июля, сентября и ноября.
  • С июля 2012 года список обновляется ежемесячно.

Следующий анализ рейтингового списка ФИДЕ за июль 2015 года дает приблизительное представление о том, что означает данный рейтинг ФИДЕ с точки зрения мирового рейтинга:

Наивысший рейтинг ФИДЕ был 2882, что было у Магнуса Карлсена в списке за май 2014 года. Список игроков с самым высоким рейтингом находится в разделе «Сравнение лучших шахматистов за всю историю» .

Рейтинг производительности

1,00 +800
0,99 +677
0,9 +366
0,8 +240
0,7 +149
0,6 +72
0,5 0
0,4 −72
0,3 −149
0,2 −240
0,1 −366
0,01 −677
0,00 −800

Рейтинг производительности - это гипотетический рейтинг, который может быть получен только в результате игр одного события. Некоторые шахматные организации используют «алгоритм 400» для расчета рейтинга результативности. Согласно этому алгоритму рейтинг результативности события рассчитывается следующим образом:

  1. За каждую победу добавляйте рейтинг вашего оппонента плюс 400,
  2. За каждое поражение прибавляйте рейтинг оппонента минус 400,
  3. И разделите эту сумму на количество сыгранных игр.

Пример: 2 победы, 2 поражения.

Это можно выразить следующей формулой:

Пример: если вы победили игрока с рейтингом Эло 1000,

Если вы победите двух игроков с рейтингом Эло 1000,

Если вы рисуете,

Это упрощение, но оно предлагает простой способ получить оценку PR (рейтинг производительности).

Однако ФИДЕ рассчитывает рейтинг результативности по формуле: средний рейтинг соперников + разница в рейтингах. Разница в рейтингах основана на процентном счете игрока в турнире , который затем используется в качестве ключа в справочной таблице, где просто количество набранных очков, деленное на количество сыгранных игр. Обратите внимание, что в случае полного или нулевого результата - 800. Полную таблицу можно найти в Руководстве ФИДЕ, B. Постоянные комиссии, 02. Рейтинговые правила ФИДЕ (квалификационная комиссия), Рейтинговые правила ФИДЕ, вступающие в силу с 1 июля 2017 года. , 8.1a онлайн. Упрощенная версия этой таблицы находится справа.

Категории турниров ФИДЕ

Категория Средний рейтинг
Минимум Максимум
14 2576 2600
15 2601 2625
16 2626 2650
17 2651 2675
18 2676 2700
19 2701 2725
20 2726 2750
21 год 2751 2775
22 2776 2800
23 2801 2825

ФИДЕ классифицирует турниры по категориям в соответствии со средним рейтингом игроков. Каждая категория имеет ширину 25 рейтинговых баллов. Категория 1 соответствует среднему рейтингу от 2251 до 2275, категория 2 - от 2276 до 2300 и т. Д. Для женских турниров категории ниже на 200 пунктов рейтинга, поэтому Категория 1 - это средний рейтинг от 2051 до 2075 и т. Д. Самый высокий Турнир с рейтингом был 23-й категории, со средним значением от 2801 до 2825. В таблице указаны самые высокие категории.

Живые рейтинги

ФИДЕ обновляет свой рейтинг-лист в начале каждого месяца. Напротив, неофициальные «живые рейтинги» рассчитывают изменение рейтингов игроков после каждой игры. Эти рейтинги Live основаны на ранее опубликованных рейтингах ФИДЕ, поэтому рейтинг игрока Live должен соответствовать тому, каким был бы рейтинг ФИДЕ, если бы ФИДЕ выпустила в тот же день новый список.

Хотя Live рейтинги являются неофициальными, интерес к Live рейтингам возник в августе / сентябре 2008 года, когда пять разных игроков заняли первое место в рейтинге Live.

Неофициальные рейтинги игроков более 2700 в реальном времени были опубликованы и поддержаны Хансом Арильдом Рунде на веб-сайте Live Rating до августа 2011 года. Другой веб-сайт, 2700chess.com , поддерживается с мая 2011 года Артемом Цепотаном и охватывает 100 лучших игроков. как 50 лучших игроков женского пола.

Изменения рейтингов можно рассчитать вручную с помощью калькулятора изменения рейтингов ФИДЕ. У всех лучших игроков коэффициент K равен 10, что означает, что максимальное изменение рейтинга за одну игру составляет чуть меньше 10 очков.

Рейтинги шахматной федерации США

Шахматная федерация США (USCF) использует свою собственную классификацию игроков:

  • 2400 и выше: старший мастер
  • 2200–2399: национальный мастер
    • 2200–2399 плюс 300 игр выше 2200: Original Life Master
  • 2000–2199: Эксперт или кандидат в мастера.
  • 1800–1999: класс A
  • 1600–1799: класс B
  • 1400–1599: класс C
  • 1200–1399: класс D
  • 1000–1199: класс E
  • 800–999: класс F
  • 600–799: класс G
  • 400–599: класс H
  • 200–399: класс I
  • 100–199: класс J

K-фактор, используемый USCF

К-фактор , в рейтинговой системе USCF, может быть оценен путем деления 800 на эффективном количестве игр рейтинг игрока основана на ( N е ) плюс количество игр игрок завершил в турнире ( м ).

Рейтинговые этажи

USCF поддерживает абсолютный рейтинг 100 для всех рейтингов. Таким образом, ни один участник не может иметь рейтинг ниже 100, независимо от его выступления на мероприятиях, санкционированных USCF. Однако игроки могут иметь более высокие индивидуальные абсолютные рейтинги, рассчитываемые по следующей формуле:

где - количество выигранных рейтинговых игр, - количество разыгранных рейтинговых игр и - количество событий, в которых игрок завершил три или более рейтинговых игр.

Более высокие уровни рейтинга существуют для опытных игроков, которые достигли высоких рейтингов. Существуют такие более высокие уровни рейтинга, начиная с рейтингов от 1200 с шагом 100 баллов до 2100 (1200, 1300, 1400, ..., 2100). Нижний предел рейтинга рассчитывается путем вычитания максимального установленного рейтинга игрока, вычитания 200 очков и последующего округления до ближайшего нижнего предела рейтинга. Например, игрок, достигший пикового рейтинга 1464, будет иметь нижний предел рейтинга 1464 - 200 = 1264, который будет округлен до 1200. По этой схеме только игроки класса C и выше могут иметь более высокий рейтинг. этаж, чем их абсолютный рейтинг игрока. У всех остальных игроков должно быть не более 150 этажей.

Есть два способа достичь более высокого уровня рейтинга, кроме стандартной схемы, представленной выше. Если игрок достиг рейтинга Original Life Master, его минимальный уровень рейтинга устанавливается на 2200. Достижение этого титула уникально тем, что ни один другой признанный титул USCF не приведет к новому уровню. Для игроков с рейтингом ниже 2000 выигрыш денежного приза в размере 2000 долларов или более поднимает нижний предел рейтинга этого игрока до ближайшего 100-балльного уровня, который дисквалифицирует игрока для участия в турнире. Например, если игрок выиграл 4000 долларов в турнире 1750 и меньше, теперь он будет иметь минимальный рейтинг 1800.

Теория

Парные сравнения составляют основу методологии рейтинга Эло. Эло сослался на работы Гуда, Дэвида, Травински и Дэвида, Бульмана и Хубера.

Математические детали

Производительность не измеряется абсолютно; он определяется на основе побед, поражений и ничьих против других игроков. Рейтинги игроков зависят от рейтингов их противников и результатов, набранных против них. Разница в рейтинге между двумя игроками определяет оценку ожидаемого результата между ними. Можно произвольно выбирать как среднее значение, так и разброс оценок. Эло предложил масштабировать рейтинги так, чтобы разница в 200 рейтинговых баллов в шахматах означала, что более сильный игрок имеет ожидаемый балл (который в основном является ожидаемым средним баллом) примерно 0,75, а USCF изначально стремился к тому, чтобы средний клубный игрок имел рейтинг 1500.

Ожидаемый счет игрока - это его вероятность выигрыша плюс половина вероятности розыгрыша. Таким образом, ожидаемая оценка 0,75 может означать 75% -ный шанс на победу, 25% -ный шанс проигрыша и 0% -ный шанс на ничью. С другой стороны, это может означать 50% шансов на победу, 0% шансов на проигрыш и 50% шансов на розыгрыш. Вероятность ничьей, в отличие от решающего результата, в системе Эло не указывается. Вместо этого ничья считается половиной победы и половиной поражения. На практике, поскольку истинная сила каждого игрока неизвестна, ожидаемые баллы рассчитываются с использованием текущих рейтингов игрока следующим образом.

Если у игрока A рейтинг, а у игрока B рейтинг , точная формула (с использованием логистической кривой ) для ожидаемого результата игрока A:

Точно так же ожидаемый результат для игрока B равен

Это также может быть выражено

а также

где и . Обратите внимание, что в последнем случае к обоим выражениям применяется один и тот же знаменатель, и это очевидно . Это означает, что, изучая только числители, мы обнаруживаем, что ожидаемая оценка для игрока A в разы больше, чем ожидаемая оценка для игрока B. Из этого следует, что на каждые 400 рейтинговых очков преимущества над оппонентом ожидаемая оценка увеличивается. в десять раз по сравнению с ожидаемым счетом соперника.

Когда фактические результаты турнира игрока превышают ожидаемые результаты, система Эло принимает это как доказательство того, что рейтинг игрока слишком низкий и его необходимо повысить. Точно так же, когда фактические результаты турнира меньше ожидаемых, рейтинг этого игрока корректируется в сторону понижения. Первоначальное предложение Эло, которое до сих пор широко используется, заключалось в простой линейной корректировке, пропорциональной количеству, на которое игрок превзошел или занизил свой ожидаемый результат. Максимально возможная корректировка за игру, называемая K-фактором, была установлена ​​на K = 16 для мастеров и K = 32 для более слабых игроков.

Предположим, игрок А должен набрать очки, но на самом деле набрал очки. Формула обновления рейтинга этого игрока:

Это обновление может выполняться после каждой игры или каждого турнира или после любого подходящего рейтингового периода. Пример может помочь прояснить ситуацию. Предположим, что игрок А имеет рейтинг 1613 и играет в турнире из пяти раундов. Они проигрывают игроку с рейтингом 1609, играют вничью с игроком с рейтингом 1477, побеждают игрока с рейтингом 1388, побеждают игрока с рейтингом 1586 и проигрывают игроку с рейтингом 1720. Фактический счет игрока составляет (0 + 0,5 + 1 + 1 + 0 ) = 2,5. Ожидаемая оценка, рассчитанная по приведенной выше формуле, составила (0,51 + 0,69 + 0,79 + 0,54 + 0,35) = 2,88. Следовательно, новый рейтинг игрока (1613 + 32 (2,5 - 2,88)) = 1601 при условии, что используется K-фактор 32. Эквивалентно, можно сказать, что в каждой игре игрок вложил в банк анте, в K раз превышающее их ожидаемое количество очков для игры, противник делает то же самое, и победитель получает полный банк со значением K; в случае ничьей игроки делят банк и получают по K / 2 очка каждый.

Обратите внимание: хотя две победы, два проигрыша и одна ничья могут показаться нормальным счетом, для игрока А это хуже, чем ожидалось, потому что его противники в среднем имели более низкий рейтинг. Таким образом, игрок А получает небольшое наказание. Если бы игрок А одержал две победы, одно поражение и две ничьи с общим счетом в три очка, это было бы немного лучше, чем ожидалось, и новый рейтинг игрока был бы (1613 + 32 (3 - 2,88)). = 1617.

Эта процедура обновления лежит в основе рейтингов, используемых FIDE , USCF , Yahoo! Games , Интернет-шахматный клуб (ICC) и бесплатный шахматный Интернет-сервер (FICS). Однако каждая организация пошла по разному пути, чтобы справиться с неопределенностью, присущей рейтингам, особенно рейтингам новичков, и решить проблему инфляции / дефляции рейтингов. Новым игрокам присваиваются предварительные рейтинги, которые корректируются более резко, чем установленные рейтинги.

Принципы, используемые в этих рейтинговых системах, могут быть использованы для оценки других соревнований, например международных футбольных матчей.

Рейтинги Эло также применялись к играм без возможности ничьих , а также к играм, в которых результат может иметь количество (малая / большая разница) в дополнение к качеству (выигрыш / проигрыш). См. Рейтинг Go с Elo для получения дополнительной информации.

Наиболее точная модель распределения

Первым математическим вопросом, на который обратился USCF, было использование нормального распределения . Они обнаружили, что это неточно отражает фактические результаты, особенно игроки с более низким рейтингом. Вместо этого они перешли на логистическую модель распределения , которая, по мнению USCF, лучше соответствует реальным достигнутым результатам. ФИДЕ также использует приближение к логистическому распределению.

Самый точный К-фактор

Вторая важная проблема - это правильный "К-фактор". Шахматный статистик Джефф Сонас считает, что исходное значение K = 10 (для игроков с рейтингом выше 2400) неточно в работе Эло. Если коэффициент К-фактора установлен слишком большим, будет слишком большая чувствительность к нескольким недавним событиям с точки зрения обмена большим количеством очков в каждой игре. А если значение K слишком низкое, чувствительность будет минимальной, и система не будет достаточно быстро реагировать на изменения фактического уровня производительности игрока.

Первоначальная оценка К-фактора Эло была сделана без использования огромных баз данных и статистических данных. Sonas указывает, что K-фактор 24 (для игроков с рейтингом выше 2400) может быть более точным как инструмент прогнозирования будущих результатов, а также более чувствителен к результатам.

Некоторые шахматные сайты в Интернете, похоже, избегают трехуровневого смещения K-фактора в зависимости от диапазона рейтингов. Например, кажется, что ICC принимает глобальное значение K = 32, кроме случаев, когда играют против игроков с предварительным рейтингом.

USCF (который использует логистическое распределение в отличие от нормального распределения ) ранее изменял K-фактор в соответствии с тремя основными диапазонами рейтинга:

  • Игроки младше 2100: использован К-фактор 32
  • Игроки в возрасте от 2100 до 2400: использован K-фактор 24
  • Игроки старше 2400: используется K-фактор 16.

В настоящее время USCF использует формулу, которая вычисляет K-фактор на основе факторов, включая количество сыгранных игр и рейтинг игрока. K-фактор также уменьшается для игроков с высоким рейтингом, если в событии предусмотрено более короткое время контроля.

ФИДЕ использует следующие диапазоны:

  • K = 40 для игрока, впервые попавшего в рейтинг-лист, до завершения событий с общим количеством 30 игр и для всех игроков до 18-летия, если их рейтинг остается ниже 2300.
  • K = 20, для игроков с рейтингом всегда ниже 2400.
  • K = 10 для игроков с любым опубликованным рейтингом не менее 2400 и не менее 30 игр, сыгранных в предыдущих турнирах. После этого он постоянно остается на 10.

До июля 2014 года ФИДЕ использовала следующие диапазоны:

  • K = 30 (было 25) для игрока, впервые попавшего в рейтинг-лист, до завершения событий с общим количеством 30 игр.
  • K = 15, для игроков с рейтингом всегда ниже 2400.
  • K = 10 для игроков с любым опубликованным рейтингом не менее 2400 и не менее 30 игр, сыгранных в предыдущих турнирах. После этого он постоянно остается на 10.

Градация К-фактора уменьшает изменения рейтингов в верхней части рейтингового спектра, уменьшая возможность быстрого повышения или понижения рейтингов для лиц с низким К-фактором. Теоретически это может относиться в равной степени к шахматному онлайн-сайту или к игрокам за доской, поскольку игрокам труднее получить гораздо более высокие рейтинги, когда их К-фактор снижен. При игре в сети это может быть просто выбор оппонентов с высоким рейтингом, который позволяет 2800+ игрокам еще больше повысить свой рейтинг, поскольку гроссмейстер на игровом сайте ICC может сыграть с рядом различных противников, рейтинг которых превышает 2700. в турнирах на доске, только в турнирах очень высокого уровня с участием всех игроков игрок сможет задействовать такое количество более 2700 противников, в то время как в обычном открытом шахматном турнире с парными швейцарскими парами часто бывает много противники имеют рейтинг ниже 2500, что снижает возможный прирост рейтингов от одного соревнования.

Практические вопросы

Игровая активность против защиты рейтинга

В некоторых случаях рейтинговая система может препятствовать игровой активности игроков, желающих защитить свой рейтинг. Чтобы помешать игрокам занимать высокие позиции в рейтинге, в предложение от 2012 года британского гроссмейстера Джона Нанна по выбору участников отборочного турнира к чемпионату мира по шахматам был включен бонус за активность, который должен быть объединен с рейтингом.

За пределами шахматного мира опасения по поводу того, что игроки избегают соревновательной игры, чтобы защитить свои рейтинги, заставили Wizards of the Coast отказаться от системы Эло для турниров Magic: the Gathering в пользу системы собственной разработки под названием «Очки Planeswalker-а».

Выборочное сопряжение

Более тонкий вопрос связан со спариванием. Когда игроки могут выбирать своих собственных противников, они могут выбирать противников с минимальным риском проигрыша и максимальной наградой за победу. Конкретные примеры игроков с рейтингом 2800+, выбирающих противников с минимальным риском и максимальной возможностью повышения рейтинга, включают: выбор противников, которых, как они знают, они могут победить с помощью определенной стратегии; выбор оппонентов, которых, по их мнению, переоценивают; или избегать игры с сильными игроками, рейтинг которых на несколько сотен очков ниже их, но может иметь шахматные титулы, такие как IM или GM. В категории выбора переоцененных противников новые участники рейтинговой системы, сыгравшие менее 50 игр, теоретически являются удобной мишенью, поскольку их предварительный рейтинг может быть переоценен. ICC компенсирует эту проблему, присваивая более низкий K-фактор признанному игроку, если он действительно выигрывает у нового участника рейтинга. Фактически, K-фактор является функцией количества рейтинговых игр, сыгранных новым участником.

Таким образом, рейтинги Эло в Интернете по-прежнему являются полезным механизмом для определения рейтинга на основе рейтинга оппонента. Однако его общее доверие следует рассматривать в контексте по крайней мере двух описанных выше основных проблем - злоупотребления двигателем и выборочного объединения противников.

ICC также недавно ввел рейтинги «автопарки», которые основаны на случайных парах, но каждая победа подряд гарантирует статистически более сильного соперника, который также выиграл x игр подряд. С потенциально участием сотен игроков это создает некоторые из проблем крупного крупного швейцарского турнира, который является предметом ожесточенных споров, когда победители раундов встречаются с победителями раундов. Такой подход к спариванию, безусловно, максимизирует риск рейтинга участников с более высоким рейтингом, которые, например, могут столкнуться с очень жестким противодействием со стороны игроков ниже 3000. Это отдельная оценка сама по себе, она находится в категориях «1-минутная» и «5-минутная». Максимальные оценки, превышающие 2500, встречаются исключительно редко.

Инфляция и дефляция рейтингов

Графики вероятностей и изменений рейтинга Эло (для K = 16 и 32) ожидаемого результата (сплошная кривая) и неожиданного результата (пунктирная кривая) по сравнению с исходной разницей рейтингов. Например, игрок A начинает с рейтингом 1400, а игрок B - с рейтингом 1800 в турнире с K  = 32 (коричневые кривые). Синяя штрих-пунктирная линия обозначает начальную разницу рейтингов в 400 (1800 - 1400). Вероятность выигрыша B, ожидаемый результат, составляет 0,91 (пересечение черной сплошной кривой и синей линии); если это произойдет, рейтинг A уменьшается на 3 (пересечение коричневой сплошной кривой и синей линии) до 1397, а рейтинг B увеличивается на ту же величину до 1803. И наоборот, вероятность выигрыша A, неожиданного результата, составляет 0,09 (пересечение черных точек. кривая и синяя линия); если это произойдет, рейтинг A увеличивается на 29 (пересечение коричневой пунктирной кривой и синей линии) до 1429, а рейтинг B уменьшается на ту же величину до 1771.

Термин «инфляция», применяемый к рейтингам, означает, что уровень игровой силы, продемонстрированный рейтинговым игроком, со временем снижается; наоборот, «дефляция» предполагает, что уровень повышается. Например, если есть инфляция, современный рейтинг 2500 означает меньше, чем исторический рейтинг 2500, тогда как обратное верно, если есть дефляция. Использование рейтингов для сравнения игроков разных эпох затрудняется при наличии инфляции или дефляции. (См. Также Сравнение лучших шахматистов за всю историю .)

Анализируя рейтинговые списки ФИДЕ с течением времени, Джефф Сонас предполагает, что инфляция могла иметь место примерно с 1985 года. Sonas смотрит на игроков с самым высоким рейтингом, а не на всех игроков, и признает, что изменения в распределении рейтингов могли быть вызваны повышение стандарта игры на высших уровнях, но ищет и другие причины.

Увеличилось количество людей с рейтингом выше 2700. Примерно в 1979 году был только один активный игрок ( Анатолий Карпов ) с таким высоким рейтингом. В 1992 году Вишванатан Ананд был только восьмым игроком в истории шахмат, достигшим на тот момент отметки 2700 человек. К 1994 году это число увеличилось до 15 игроков. 33 игрока имели рейтинг 2700+ в 2009 году и 44 по состоянию на сентябрь 2012 года. Текущий ориентир для элитных игроков превышает 2800.

Одной из возможных причин этой инфляции был нижний предел рейтинга, который долгое время находился на уровне 2200, и если игрок опускался ниже этого уровня, он вычеркивался из рейтингового списка. Как следствие, игроки с уровнем мастерства чуть ниже пола будут в рейтинг-листе только в том случае, если они будут переоценены, и это заставит их пополнить рейтинг. В июле 2000 года средний рейтинг топ-100 составлял 2644. К июлю 2012 года он вырос до 2703.

Используя мощный шахматный движок для оценки ходов, сыгранных в играх между рейтинговыми игроками, Риган и Хаворт анализируют партии игр из рейтинговых турниров ФИДЕ и делают вывод о том, что с 1976 по 2009 год инфляции не было или было мало.

В чистой системе Эло каждая игра заканчивается равной транзакцией рейтинговых очков. Если победитель набирает N рейтинговых очков, проигравший теряет N рейтинговых очков. Это предотвращает попадание очков в систему или выход из нее во время игры и оценки. Однако игроки, как правило, входят в систему как новички с низким рейтингом и удаляются из системы как опытные игроки с высоким рейтингом. Следовательно, в долгосрочной перспективе система со строго равными операциями имеет тенденцию приводить к дефляции рейтингов.

В 1995 году USCF признал, что несколько молодых школьников улучшались быстрее, чем система рейтинга могла отслеживать. В результате состоявшиеся игроки со стабильным рейтингом начали терять рейтинговые очки молодым и недооцененным игрокам. Некоторые из старожилов были разочарованы снижением рейтинга, которое они считали несправедливым, а некоторые даже бросили шахматы из-за этого.

Борьба с дефляцией

Из-за значительной разницы в сроках возникновения инфляции и дефляции, а также для борьбы с дефляцией, большинство реализаций рейтингов Эло имеют механизм для введения баллов в систему, чтобы поддерживать относительные рейтинги с течением времени. У ФИДЕ есть два инфляционных механизма. Во-первых, выступления ниже «минимального уровня» не отслеживаются, поэтому игрок с истинным мастерством ниже этого уровня может только не оцениваться или переоцениваться, но никогда не оцениваться правильно. Во-вторых, у авторитетных игроков и игроков с более высоким рейтингом К-фактор ниже. У новых игроков K  = 40, который падает до K  = 20 после 30 сыгранных игр и до K  = 10, когда игрок достигает 2400. Текущая система в Соединенных Штатах включает схему бонусных баллов, которая вводит рейтинговые баллы в систему в чтобы отслеживать улучшающихся игроков, и различные K-значения для разных игроков. Некоторые методы, используемые, например, в Норвегии, проводят различие между юниорами и взрослыми и используют больший K-фактор для молодых игроков, даже повышая рейтинг на 100%, когда они набирают намного больше своих предсказанных результатов.

Уровни рейтинга в США работают, гарантируя, что игрок никогда не опустится ниже определенного предела. Это также помогает бороться с дефляцией, но председатель Рейтингового комитета USCF критически относится к этому методу, поскольку он не дает дополнительных очков улучшающимся игрокам. Возможным мотивом для этих минимальных рейтингов является борьба с мешками с песком, т. Е. Преднамеренным понижением рейтингов, чтобы иметь право на участие в разделах и призах более низкого класса.

Рейтинги компьютеров

Шахматные матчи между человеком и компьютером между 1997 г. ( Deep Blue против Гарри Каспарова ) и 2006 г. продемонстрировали, что шахматные компьютеры способны победить даже самых сильных игроков-людей. Однако рейтинг шахматного движка сложно определить количественно из-за переменных факторов, таких как контроль времени и оборудование, на котором работает программа. Опубликованные списки рейтингов движков, такие как CCRL , основаны на играх только с движком на стандартных конфигурациях оборудования и не могут быть напрямую сопоставлены с рейтингами ФИДЕ.

Для некоторых оценок рейтингов см. Шахматный движок § Рейтинги .

Использование вне шахмат

Атлетический спорт

Система рейтинга Эло используется в шахматной части бокса . Чтобы иметь право на профессиональный шахматный бокс, нужно иметь рейтинг Эло не менее 1600, а также участвовать в 50 или более матчах любительского бокса или боевых искусств.

Американский университетский футбол использовал метод Эло как часть своей рейтинговой системы Bowl Championship Series с 1998 по 2013 год, после чего BCS был заменен на плей-офф College Football . Джефф Сагарин из USA Today публикует рейтинги команд по большинству американских видов спорта, включая рейтинги по системе Эло для студенческого футбола. Использование рейтинговых систем было фактически прекращено с созданием плей-офф колледжа футбола в 2014 году; Участники CFP и связанных с ним игр в чашу выбираются отборочной комиссией.

В других видах спорта люди поддерживают рейтинги на основе алгоритма Эло. Обычно они являются неофициальными и не одобряются руководящим органом спорта. В Футбольном Рейтинге Эл является примером метода применительно к мужскому футболу . В 2006 году рейтинги Эло были адаптированы для команд Высшей бейсбольной лиги Нейтом Сильвером , затем работавшим в Baseball Prospectus . Основываясь на этой адаптации, оба также сделали на основе Эло моделирование шансов на то, выйдут ли команды в плей-офф, на основе метода Монте-Карло . В 2014 году сайт SB Nation Beyond the Box Score представил систему рейтинга Эло для международного бейсбола.

В теннисе Универсальный теннисный рейтинг (UTR) на основе Эло оценивает игроков по глобальной шкале, независимо от возраста, пола или национальности. Это официальная рейтинговая система крупных организаций, таких как Межуниверситетская теннисная ассоциация и World TeamTennis, которая часто используется в сегментах Tennis Channel . Алгоритм анализирует более 8 миллионов результатов матчей более 800 000 теннисистов со всего мира. 8 мая 2018 года Рафаэль Надаль , выигравший 46 сетов подряд в матчах с грунтовым покрытием, имел почти идеальный UTR на грунте - 16,42.

Одним из немногих рейтингов на основе Эло, одобренных руководящим органом спорта, является Всемирный рейтинг женщин ФИФА , основанный на упрощенной версии алгоритма Эло, который ФИФА использует в качестве официальной системы рейтинга национальных сборных по женскому футболу .

Из первого рейтингового списка после чемпионата мира по футболу FIFA 2018 FIFA использовала Elo для составления своего мирового рейтинга FIFA .

В 2015 году Нейт Сильвер, главный редактор сайта статистических комментариев FiveThirtyEight , и Рубен Фишер-Баум составили рейтинги Эло для каждой команды Национальной баскетбольной ассоциации за сезон в течение сезона 2014 года. В 2014 году FiveThirtyEight разработали рейтинги и прогнозы побед для профессиональной Национальной футбольной лиги США на основе Эло .

Английская ассоциация корфбола оценила команды на основе рейтингов Эло, чтобы определить гандикап для их кубковых соревнований в сезоне 2011/12.

Разработан рейтинг игроков Национальной хоккейной лиги на основе Эло . Показатель хоккея-Эло оценивает общую двустороннюю игру игрока: выигрыш И защиту как в ситуациях с равной силой, так и в ситуациях игры в большинстве / убийства с пенальти.

Rugbyleagueratings.com использует систему рейтинга Эло для ранжирования команд международных и клубных лиг регби .

Другие настольные и карточные игры

Национальные организации Scrabble вычисляют нормально распределенные рейтинги Эло, за исключением Соединенного Королевства , где используется другая система. Североамериканский Эрудит Ассоциация игроков имеет наибольшее номинальное население активных членов, насчитывающий около 2000 по состоянию на начало 2011 года Lexulous также использует систему Эло.

Популярный сервер First Internet Backgammon Server (FIBS) рассчитывает рейтинги на основе модифицированной системы Elo. Новым игрокам присваивается рейтинг 1500, а рейтинг лучших людей и ботов превышает 2000. Та же формула была принята на нескольких других сайтах по нардам, таких как Play65 , DailyGammon , GoldToken и VogClub . VogClub устанавливает рейтинг нового игрока на уровне 1600. Федерация нардов Великобритании использует формулу FIBS для своих национальных рейтингов Великобритании.

Европейская федерация Go приняла Эл на основе рейтинговой системы первоначально инициированную Федерации Го Чехии.

Несмотря на вопросы о целесообразности использования системы Эло для оценки игр, в которых решающим фактором является удача, производители карточных игр часто используют рейтинги Эло для своей организованной игры. DCI (ранее дуэлянтов Созыв International) используются рейтинги Эло для турниров Magic: The Gathering и другие Волшебники Побережья игр. Однако DCI отказался от этой системы в 2012 году в пользу новой накопительной системы «Очков Planeswalker-а», главным образом из-за вышеупомянутого беспокойства о том, что Эло поощряет игроков с высоким рейтингом избегать игры для «защиты своего рейтинга». Pokémon USA использует систему Эло для ранжирования своих участников организованной игры TCG. Призы для лучших игроков в различных регионах включали праздники и приглашения на чемпионаты мира до сезона 2011–2012 гг., Где награды основывались на системе чемпионских очков, и их обоснование было таким же, как и у DCI для Magic: The Gathering . Точно так же, Расшифруйте, Inc. используется система Эло для своих ранговых игр , таких как Star Trek Настраиваемый карточной игры и Star Wars Настраиваемый Card Game .

Видеоигры и онлайн-игры

Многие видеоигры используют модифицированные системы Эло в игровом процессе. В MOBA- игре League of Legends до второго сезона соревновательной игры использовалась система рейтинга Эло. Esports игра Overwatch , основа уникальной Overwatch Лига профессиональных спортивных организаций , использует производную от системы Эла ранжировать киберспортсмен с различными корректировками между конкурентным сезонами. Counter-Strike: Global Offensive и GO Battle League в Pokemon Go использует Glicko-2 , модифицированную систему Elo, в то время как за пределами профессиональных лиг для игры (например, ESEA League и Faceit ) используются рейтинги Elo. World of Warcraft также ранее использовала систему Glicko-2 для объединения и сравнения игроков Arena, но теперь использует систему, аналогичную TrueSkill от Microsoft . Игра Puzzle Pirates использует рейтинговую систему Elo для определения позиций в различных головоломках. Roblox представил рейтинг Elo в 2010 году. Эта система также используется в FIFA Mobile для режимов Division Rivals. Браузерная игра Quidditch Manager использует рейтинг Эло для измерения производительности команды. Еще одна недавняя игра, в которой начали использовать рейтинговую систему Эло, - это AirMech , использующая рейтинги Эло для случайного / командного подбора игроков 1 на 1, 2 на 2 и 3 на 3. RuneScape 3 использовала систему Эло в перевыпуске мини-игры охотника за головами в 2016 году. Mechwarrior Online установил систему Эло для своего нового режима «Comp Queue», вступившего в силу с патчем от 20 июня 2017 года.

Немногие видеоигры используют оригинальную систему рейтинга Эло. Согласно Lichess , онлайн-шахматному серверу, система Elo устарела, и теперь Glicko-2 используется многими шахматными организациями. PlayerUnknown's Battlegrounds - одна из немногих видеоигр, в которой используется самая первая система Эло. В Guild Wars рейтинги Эло используются для записи рейтинга гильдии, полученного и потерянного в битвах между гильдиями. Первоначально League of Legends использовала классическую систему Эло для рейтингового игрового процесса, но после третьего сезона перешла на уникальную систему рейтинга. В различных других онлайн-играх рейтинги Эло используются для определения рейтинга игроков. С 2005 года Golden Tee Live оценивает игроков по системе Эло. Новые игроки начинают с 2100, с рейтингом лучших игроков более 3000. Первоначальное значение K было 30, но было изменено до 5 в январе 2007 года, а затем было изменено на 15 в июле 2009 года. В 1998 году была запущена онлайн-игровая лестница под названием Clanbase , которая использовали систему подсчета очков Эло для ранжирования команд. Позже в 2013 году сайт был отключен. Аналогичный альтернативный сайт был запущен в 2016 году под названием Scrimbase , который также использовал систему подсчета очков Elo для ранжирования команд.

Несмотря на то, что во многих видеоиграх используются разные системы подбора игроков, игроки в рейтинговые видеоигры обычно называют все рейтинги подбора соперников Эло .

Другое использование

Система рейтинга Эло использовалась в мягкой биометрии , которая касается идентификации людей с использованием человеческих описаний. Сравнительные описания использовались вместе с рейтинговой системой Эло, чтобы обеспечить надежные и отличительные «относительные измерения», позволяющие точно идентифицировать.

Система рейтинга Эло также использовалась в биологии для оценки иерархии мужского доминирования, а также в автоматизации и компьютерном зрении для проверки тканей .

Более того, сайты онлайн-судей также используют рейтинговую систему Elo или ее производные. Например, Topcoder использует модифицированную версию, основанную на нормальном распределении, в то время как Codeforces использует другую версию, основанную на логистическом распределении.

Система рейтинга Elo также была отмечена в приложениях для знакомств, например, в приложении для сватовства Tinder , которое использует вариант рейтинговой системы Elo.

Ссылки в СМИ

Система рейтинга Эло была широко представлена ​​в Социальной сети во время сцены алгоритмов, когда Марк Цукерберг выпустил Facemash . В этой сцене Эдуардо Саверин пишет математические формулы для рейтинговой системы Эло на окне комнаты общежития Цукерберга. В фильме утверждается, что за кадром используется система Эло для ранжирования девушек по их привлекательности. Уравнения, управляющие алгоритмом, кратко показаны в окне; однако они немного неверны.

Смотрите также

Примечания

использованная литература

дальнейшее чтение

внешние ссылки