H2H история в теннисе: когда важна, когда обман

Личные встречи Djokovic vs Federer — полезны или noise? Методология использования head-to-head в ML моделях и типичные ошибки.

Что такое H2H

H2H (head-to-head) — история личных встреч двух игроков. Djokovic vs Federer: 27-23 в пользу Джоковича. Это 50 матчей за 15+ лет, обширная база. Публика использует H2H как простой предиктор: «Djokovic ведёт 27-23 значит он фаворит». Реальность сложнее. Из этих 50 матчей — 5 в Grand Slam finals, 10 на clay, 20 на hard. Разная эпоха, разная форма, разный возраст. Чистый H2H без фильтрации — слабый предиктор (~55% accuracy). С правильной фильтрацией — 65-68%.

Фильтрация recency

Первая важная фильтрация — по времени. Матчи старше 2-3 лет имеют малую прогностическую ценность: игроки изменились (возраст, травмы, техника). Модель StarkTennis учитывает только H2H последних 3 лет для прогноза winner. Для старых рекордов (Federer vs Nadal 2005-2010) — это historical interest, не predictive value. Cut-off 3 года: статистически optimal по cross-validation, балансирует sample size и relevance.

Фильтрация по surface

Вторая: surface-specific H2H. Djokovic vs Nadal overall 30-29 (почти равно), но: на hard 20-7 (Djokovic), на clay 8-20 (Nadal), на grass 2-2. На Roland Garros (clay) Djokovic underdog даже при overall «равном» score. Модель использует только same-surface H2H как primary feature, плюс overall как secondary. Если same-surface H2H пустой (новая pairing) — модель backoff на общий Elo разницу.

Проблема малой выборки

Большинство H2H — 1-3 матча. Это статистический шум. 2-0 H2H не значит ничего. 3-1 — на грани значимости (binomial p-value 0.31). 7-1 — уже сигнал (p=0.035). Модель требует ≥5 матчей same-surface за 3 года для inclusion как feature. Если меньше — игнорирует H2H, полагается на Elo + forma. Это спасает от над-weighting случайных коротких серий. Пример: Sinner 4-0 vs Rublev до 2024 — это не «доминация», это 4 матча с разбросом +/−2 по expected win probability из Elo. Модель не даёт дополнительный boost.

Psychological H2H (miф)

Популярный миф: «Nadal психологически владеет Djokovic-ом». Реальность: модели не находят evidence такого effect после контроля на surface и recency. Nadal выигрывал Djokovic чаще на clay — это прямой skill effect, не psychology. После 2013 на non-clay Djokovic ведёт. Как только скорректировали на покрытие — «psychological dominance» исчезает. Journalists продают эту narrative, но статистика её не подтверждает. Модель не имеет psychology feature — только hard metrics.

Когда H2H обманывает

(1) Возрастной gap: если один игрок молод (Alcaraz 21) а другой на declining phase (Djokovic 39) — исторический H2H был в другую эпоху. Модель весит недавние сильнее. (2) Injury: если H2H 3-1 но 3 победы до injury opponent — инвалидно. (3) Style matchup change: если игрок изменил технику (Murray after hip surgery) — pre-injury и post-injury это разные игроки. Модель помечает major transitions. (4) Format change: Djokovic vs Nadal bo5 vs bo3 — разные expected outcomes. На bo5 endurance matters, Nadal historically лучше. Модель учитывает формат.

Частые вопросы

Что если я сам вижу H2H 10-2 — ставить на leading?

Проверь: (1) сколько последних 3 лет; (2) на какой surface; (3) одинаковая эпоха обоих. Если 10-2 равномерно + тот же surface + recent — да, сигнал. Если 8 из 10 побед были 2015-2018 на clay, а сейчас hard в 2026 — noise.

H2H на challenger level имеет смысл?

Обычно нет. Малая выборка + быстро меняющиеся игроки. Лучше Elo + recent forma.

Почему sharp bookmakers используют H2H?

Они используют корректированный (surface-filtered, recency-weighted) H2H. Bet365 line также учитывает — но soft, с запозданием. Sharp edge часто лежит между — ты нашёл recent surface H2H которая пока не в public line.

Смотри также: модели StarkTennis

Pure Math Winner — победитель без ML
Point-by-point формула: Glicko-2 serve/return → P(point on serve) → P(hold) → P(set) → P(match). 60% PBP + 40% surface E…
Trio — максимальный консенсус (meta)
Meta-модель: срабатывает только когда ≥3 варианта одного семейства (HC Cover / Total Over / Winner) дают одинаковый пик.…
HC Cover -3.5 — фора фаворита
Per-line XGBoost (v1) + CatBoost + LineMove + PureMath варианты. WFCV медианный ROI@12% +53%, 4/4 positive folds. Лучшее…

Посмотреть live прогнозы

Теория — полезно, практика — полезнее. Все модели StarkTennis работают в реальном времени:

📊 Открыть миниапп

Telegram канал: @cxcap. Обновление каждые 30 минут. Всё бесплатно.

Head-to-head в теннис прогнозах: фильтруем сигнал от шума