Личные встречи Djokovic vs Federer — полезны или noise? Методология использования head-to-head в ML моделях и типичные ошибки.
H2H (head-to-head) — история личных встреч двух игроков. Djokovic vs Federer: 27-23 в пользу Джоковича. Это 50 матчей за 15+ лет, обширная база. Публика использует H2H как простой предиктор: «Djokovic ведёт 27-23 значит он фаворит». Реальность сложнее. Из этих 50 матчей — 5 в Grand Slam finals, 10 на clay, 20 на hard. Разная эпоха, разная форма, разный возраст. Чистый H2H без фильтрации — слабый предиктор (~55% accuracy). С правильной фильтрацией — 65-68%.
Первая важная фильтрация — по времени. Матчи старше 2-3 лет имеют малую прогностическую ценность: игроки изменились (возраст, травмы, техника). Модель StarkTennis учитывает только H2H последних 3 лет для прогноза winner. Для старых рекордов (Federer vs Nadal 2005-2010) — это historical interest, не predictive value. Cut-off 3 года: статистически optimal по cross-validation, балансирует sample size и relevance.
Вторая: surface-specific H2H. Djokovic vs Nadal overall 30-29 (почти равно), но: на hard 20-7 (Djokovic), на clay 8-20 (Nadal), на grass 2-2. На Roland Garros (clay) Djokovic underdog даже при overall «равном» score. Модель использует только same-surface H2H как primary feature, плюс overall как secondary. Если same-surface H2H пустой (новая pairing) — модель backoff на общий Elo разницу.
Большинство H2H — 1-3 матча. Это статистический шум. 2-0 H2H не значит ничего. 3-1 — на грани значимости (binomial p-value 0.31). 7-1 — уже сигнал (p=0.035). Модель требует ≥5 матчей same-surface за 3 года для inclusion как feature. Если меньше — игнорирует H2H, полагается на Elo + forma. Это спасает от над-weighting случайных коротких серий. Пример: Sinner 4-0 vs Rublev до 2024 — это не «доминация», это 4 матча с разбросом +/−2 по expected win probability из Elo. Модель не даёт дополнительный boost.
Популярный миф: «Nadal психологически владеет Djokovic-ом». Реальность: модели не находят evidence такого effect после контроля на surface и recency. Nadal выигрывал Djokovic чаще на clay — это прямой skill effect, не psychology. После 2013 на non-clay Djokovic ведёт. Как только скорректировали на покрытие — «psychological dominance» исчезает. Journalists продают эту narrative, но статистика её не подтверждает. Модель не имеет psychology feature — только hard metrics.
(1) Возрастной gap: если один игрок молод (Alcaraz 21) а другой на declining phase (Djokovic 39) — исторический H2H был в другую эпоху. Модель весит недавние сильнее. (2) Injury: если H2H 3-1 но 3 победы до injury opponent — инвалидно. (3) Style matchup change: если игрок изменил технику (Murray after hip surgery) — pre-injury и post-injury это разные игроки. Модель помечает major transitions. (4) Format change: Djokovic vs Nadal bo5 vs bo3 — разные expected outcomes. На bo5 endurance matters, Nadal historically лучше. Модель учитывает формат.
Проверь: (1) сколько последних 3 лет; (2) на какой surface; (3) одинаковая эпоха обоих. Если 10-2 равномерно + тот же surface + recent — да, сигнал. Если 8 из 10 побед были 2015-2018 на clay, а сейчас hard в 2026 — noise.
Обычно нет. Малая выборка + быстро меняющиеся игроки. Лучше Elo + recent forma.
Они используют корректированный (surface-filtered, recency-weighted) H2H. Bet365 line также учитывает — но soft, с запозданием. Sharp edge часто лежит между — ты нашёл recent surface H2H которая пока не в public line.
Теория — полезно, практика — полезнее. Все модели StarkTennis работают в реальном времени:
📊 Открыть миниаппTelegram канал: @cxcap. Обновление каждые 30 минут. Всё бесплатно.