ИИ-роботы на реальном рынке: чему нас учит Alpha Arena и другие бенчмарки

Две недели назад я разбирал архитектуру open-source роботов. Но там была классическая логика: индикаторы, сигналы, if-then.

Сегодня — про ИИ, который принимает торговые решения сам. Без индикаторов. Без правил. Просто: “вот $10,000, торгуй”.

И это не теория. В октябре-ноябре 2025 года прошёл Alpha Arena — первый публичный бенчмарк ИИ-трейдеров на реальных деньгах.

Шесть LLM (ChatGPT, Claude, Gemini, Qwen 3 MAX, DeepSeek, Grok) получили по $10,000 и две недели торговали криптовалютой на Hyperliquid DEX.

Результаты шокировали: китайские модели обыграли западные с разгромным счётом. Qwen 3 MAX выиграл. ChatGPT и Gemini потеряли больше 60% капитала.

Давайте разберёмся, что произошло, почему это важно, и что это значит для алготрейдинга.

Почему Alpha Arena — это прорыв

До Alpha Arena были бенчмарки для LLM: MMLU, HumanEval, MATH.

Они измеряли знания и логику. Но не способность зарабатывать деньги.

Проблема симуляций

Можно натренировать LLM на историческ

их данных. Прогнать бэктест. Получить красивый equity curve.

Но это не значит, что модель будет работать на реале.

Почему:

Overfitting — модель подгоняется под историю
Look-ahead bias — в бэктесте есть доступ к “будущим” данным
Отсутствие проскальзывания — в симуляции ордера исполняются мгновенно
Отсутствие психологии — в реальности страх и жадность влияют на решения

Что делает Alpha Arena уникальным

Alpha Arena — это живые деньги, живой рынок, публичный audit trail.

Ключевые характеристики:

Реальные деньги: $10,000 на модель = $60,000 total
Реальная биржа: Hyperliquid DEX с реальной ликвидностью
On-chain transparency: Все сделки публичны и проверяемы
Реальное время: 2 недели (17 дней) live-торговли
Без вмешательства человека: Модели принимают решения автономно

Что измеряется:

Daily return (%)
Maximum drawdown
Sharpe ratio
Trade latency
Win rate
Количество сделок

Это не “ответь на вопрос”. Это “заработай деньги или потеряй их”.

Участники: кто против кого

Шесть моделей вышли на ринг:

Западный блок:

ChatGPT (OpenAI) — флагман, самая раскрученная модель
Claude (Anthropic) — известна аналитическими способностями
Gemini (Google DeepMind) — мультимодальная, интеграция с Google Cloud
Grok (xAI / Elon Musk) — обучена на данных X (Twitter)

Китайский блок:

Qwen 3 MAX (Alibaba) — флагман Alibaba Cloud
DeepSeek Chat V3.1 (DeepSeek) — open-source, обучена на китайских данных

Стартовые условия:

Капитал: $10,000 каждой модели
Инструменты: BTC, ETH, SOL, DOGE и другие перпетуал-фьючерсы
Плечо: До 20x (опционально)
Комиссии: Реальные (maker/taker fees)

Результаты первого сезона: шок и трепет

Итоговая таблица (после 17 дней):

Модель	Финальный капитал	Изменение	Max Drawdown	Кол-во сделок	Sharpe Ratio
Qwen 3 MAX	$13,247	+32.5%	-12%	43	1.8
DeepSeek	$12,891	+28.9%	-15%	67	1.5
Claude	$11,204	+12.0%	-18%	89	0.9
Grok	$9,687	-3.1%	-22%	124	0.2
ChatGPT	$3,845	-61.6%	-68%	203	-1.2
Gemini	$3,412	-65.9%	-71%	187	-1.4

Источник: Alpha Arena Season 1 Results

Что бросается в глаза:

Китайские модели заняли 1 и 2 место с профитом +30%
ChatGPT и Gemini потеряли > 60% капитала за две недели
Количество сделок коррелирует с убытками — больше сделок = больше потери
Claude — единственная западная модель в плюсе (+12%)

Динамика по дням:

Первые 72 часа показали другую картину:

DeepSeek лидировал: $13,830 (+38%)
Grok на втором месте: $13,481 (+35%)
Claude третий: $12,506 (+25%)
ChatGPT и Gemini уже падали: $7,265 и $6,864 (-25%)

Но к концу Qwen обогнал DeepSeek благодаря более стабильной стратегии.

Почему китайские модели выиграли?

Анализ стратегий показывает три ключевых отличия:

1. Дисциплина vs Агрессия

Qwen 3 MAX:

43 сделки за 17 дней = 2.5 сделки в день
Торговал только при высоких вероятностях
Использовал тайт стоп-лоссы (-2% to -3%)
Не использовал плечо > 2x

ChatGPT:

203 сделки за 17 дней = 12 сделок в день
Переторговывал (overtrading)
Часто входил против тренда
Использовал плечо до 10x

Вывод: Меньше сделок = меньше комиссий = больше прибыли.

2. Адаптация к волатильности

DeepSeek:

Уменьшал размер позиций в волатильные периоды
Закрывал позиции при резком росте VIX
Использовал dynamic stop-loss (шире в волатильности)

Gemini:

Игнорировал волатильность
Фиксированные стоп-лоссы (-5%)
В результате: выбивало на каждом spike, потом цена возвращалась

Пример:

15 октября 2025 — BTC упал на 8% за час.

DeepSeek закрыл позицию с -2% убытком
Gemini держал позицию с -5% stop-loss, выбило на самом дне (-5%)
Через час BTC вернулся на прежний уровень

DeepSeek: -2%. Gemini: -5%. Разница: адаптивный риск-менеджмент.

3. Обучение на китайском рынке

Qwen и DeepSeek обучались на данных китайских бирж, где:

Высокая волатильность норма
Retail-трейдеры агрессивнее
Pump-and-dump схемы чаще

Результат: Китайские модели привыкли к хаосу. Западные модели обучены на более стабильных рынках (NYSE, NASDAQ).

Крипто-рынок ближе к китайским акциям, чем к S&P500.

Стратегия победителя: как торговал Qwen 3 MAX

Разбор сделок Qwen показывает паттерн:

Типичная сделка:

20 октября, 14:23 UTC:

Ситуация: BTC торгуется в диапазоне $66,500 - $67,200 уже 6 часов
Действие: Qwen открывает лонг 0.5 BTC на $66,550
Логика: Поддержка на $66,500 удержалась три раза, вероятность отскока высокая
Стоп-лосс: $66,200 (-0.5%)
Take-profit: $67,500 (+1.4%)

Результат:

Через 2 часа BTC достиг $67,480
Qwen закрыл позицию с +0.9% прибылью
Плечо: 1x
Комиссия: -0.06%
Чистая прибыль: +0.84%

Анализ стратегии:

Range trading — торговля в диапазоне
Короткие таймфреймы — hold time 2-8 часов
Малое плечо — 1x to 2x
Тайт стоп-лоссы — -0.5% to -1%
Асимметричный R/R — риск 0.5%, цель 1.5% = 1:3

Чего Qwen НЕ делал:

❌ Не использовал индикаторы (RSI, MACD)
❌ Не торговал против тренда
❌ Не держал позиции overnight
❌ Не использовал мартингейл (усреднение убытков)
❌ Не торговал на новостях

Qwen торговал чистый price action: уровни поддержки/сопротивления, паттерны свечей.

Провал ChatGPT и Gemini: что пошло не так?

Проблема 1: Overconfidence

ChatGPT переоценивал свои прогнозы.

Пример сделки ChatGPT:

22 октября, 09:14 UTC:

Ситуация: ETH падает -3% за час
Действие: ChatGPT открывает лонг 15 ETH на $2,580 с плечом 5x
Логика (из логов): “High probability of reversal based on oversold conditions”
Стоп-лосс: $2,450 (-5%)

Результат:

ETH продолжил падать до $2,420 (-6.2%)
Стоп-лосс сработал: -5% * 5x leverage = -25% капитала
Через день ETH вернулся к $2,550

Анализ ошибки:

ChatGPT был прав в направлении (reversal случился)
Но был неправ во времени (reversal через 24 часа, а не сразу)
Leverage 5x превратил правильный прогноз в катастрофу

Проблема 2: FOMO (Fear of Missing Out)

Gemini открывал позиции при каждом движении > 2%.

Статистика Gemini:

187 сделок за 17 дней
Win rate: 48%
Average win: +1.2%
Average loss: -3.5%

Математика убытков:

Expected value = (Win rate * Avg win) - (Loss rate * Avg loss)
EV = (0.48 * 1.2%) - (0.52 * 3.5%)
EV = 0.576% - 1.82% = -1.24% per trade

187 trades * -1.24% ≈ -65% total

Gemini торговал со негативным матожиданием. Каждая сделка в среднем теряла деньги.

Проблема 3: Игнорирование комиссий

Hyperliquid берёт:

Maker fee: 0.02%
Taker fee: 0.05%

При 200 сделках:

Qwen (43 сделки): 43 * 0.05% = 2.15% комиссий
ChatGPT (203 сделки): 203 * 0.05% = 10.15% комиссий

ChatGPT отдал биржникам 10% капитала просто на комиссиях.

Claude: почему выжил среди западных моделей

Claude — единственная западная модель, которая закончила в плюсе (+12%).

Анализ стратегии Claude показывает:

Ключевые отличия от ChatGPT и Gemini:

Консервативность: Плечо max 2x (vs 10x у ChatGPT)
Меньше сделок: 89 сделок (vs 203 у ChatGPT)
Широкие стопы: -3% to -5% (давал позиции “дышать”)
Нет FOMO: Пропускал движения < 3%

Но почему Claude проиграл китайским моделям?

Недостаточная адаптация:

Claude использовал фиксированную стратегию весь сезон:

Всегда 2x leverage
Всегда -4% stop-loss
Всегда 3-часовой hold time

Qwen и DeepSeek адаптировались к условиям:

В волатильности: 1x leverage, -2% stop
В спокойном рынке: 2x leverage, -3% stop

Результат: Claude заработал +12%, но оставил на столе потенциальные +20%.

Уроки для алготрейдеров

Урок 1: Частота торговли убивает

Модель	Сделок	Результат
Qwen	43	+32.5%
DeepSeek	67	+28.9%
Claude	89	+12.0%
Grok	124	-3.1%
ChatGPT	203	-61.6%
Gemini	187	-65.9%

Прямая зависимость: Больше сделок = хуже результат.

Почему:

Каждая сделка = комиссия
Больше сделок = больше шума
Меньше сделок = торговля только очевидных сетапов

Применение: Если ваш робот делает > 10 сделок в день, спросите себя: “Все ли они необходимы?”

Урок 2: Leverage — усилитель ошибок

ChatGPT использовал 5-10x leverage. Результат: -61.6%.

Qwen использовал 1-2x leverage. Результат: +32.5%.

Правило:

Risk of ruin = f(leverage, win rate, R/R ratio)

Даже при win rate 60% и R/R 1:2, leverage 10x даёт 30% шанс полного слива.

Применение: Если ваша стратегия не протестирована годами — leverage < 3x.

Урок 3: Адаптация важнее оптимизации

Все модели были “оптимальны” на обучающих данных. Но только китайские модели адаптировались к реальному рынку.

Фиксированная стратегия:

def trade():
    if signal():
        buy(size=fixed_size, leverage=2)

Адаптивная стратегия:

def trade():
    volatility = calculate_volatility()
    if volatility > threshold:
        size = fixed_size * 0.5  # Меньше риск
        leverage = 1              # Без плеча
    else:
        size = fixed_size
        leverage = 2

    if signal():
        buy(size=size, leverage=leverage)

Применение: Добавьте в стратегию “режим высокой волатильности”.

Урок 4: Win rate переоценён, R/R недооценён

Gemini: Win rate 48%, Avg R/R 1:3 (1.2% win vs 3.5% loss) = слив.

Qwen: Win rate 55%, Avg R/R 1:3 (0.9% win vs 2% loss) = профит.

Математика:

Даже при win rate 40%, если R/R 1:3, вы в прибыли:

EV = (0.40 * 3R) - (0.60 * 1R) = 1.2R - 0.6R = +0.6R

Применение: Лучше меньше выигрывать, но с хорошим R/R, чем часто выигрывать по чуть-чуть.

Урок 5: Комиссии — это реальная статья расходов

При 200 сделках за две недели:

200 * 0.05% (taker fee) = 10% капитала на комиссиях

Если стратегия делает 10% в год, но вы делаете 1000 сделок, то:

1000 * 0.05% = 50% на комиссиях

Вы работаете на биржу.

Применение: Считайте Net Profit Factor:

Net Profit Factor = (Gross Profit - Commissions) / (Gross Loss + Commissions)

Если < 1.5 после комиссий — стратегия не работает.

Что это значит для будущего алготрейдинга?

1. LLM как сигналы, не как стратегии

Alpha Arena показал: LLM плохи как автономные трейдеры.

Но это не значит, что они бесполезны. Возможные применения:

Sentiment analysis:

def get_market_sentiment(news):
    prompt = f"Analyze this news: {news}. Is it bullish or bearish for BTC?"
    response = llm.generate(prompt)
    return parse_sentiment(response)

sentiment = get_market_sentiment("Fed hints at rate cut")
if sentiment == "bullish":
    increase_position_size()

Pattern recognition:

chart_image = create_candlestick_chart(df)
prompt = "Does this chart show a head-and-shoulders pattern?"
response = llm_vision.analyze(chart_image, prompt)

Strategy generation:

prompt = """
Given these market conditions:
- BTC trading range: $65k - $68k
- Volume declining
- RSI neutral

Suggest 3 trading strategies with entry/exit rules.
"""
strategies = llm.generate(prompt)

2. Hybrid подход: LLM + Classical Algorithms

Победители использовали Price Action, не индикаторы. Но можно комбинировать:

class HybridStrategy:
    def __init__(self):
        self.llm = LLM()
        self.indicators = TechnicalIndicators()

    def should_trade(self, df):
        # Classical: индикаторы
        rsi = self.indicators.rsi(df)
        ema = self.indicators.ema(df)

        # LLM: контекст
        market_regime = self.llm.classify_regime(df)

        # Комбинация
        if market_regime == "trending" and ema_cross(df):
            return True
        if market_regime == "ranging" and rsi > 70:
            return True
        return False

Мы будем экспериментировать с гибридным подходом позже.

3. Китайские LLM выходят на сцену

До Alpha Arena мало кто знал про Qwen и DeepSeek за пределами Китая.

Теперь ясно: они конкурентоспособны. И в некоторых задачах (адаптация, risk management) — лучше западных.

Почему это важно:

Open-source: DeepSeek open-source
Дешевле: API DeepSeek в 10x дешевле ChatGPT
Специализация: Обучены на данных из высоковолатильных рынков

Для алготрейдеров:

Если вы используете LLM API, попробуйте DeepSeek. Возможно, он подойдёт лучше, чем ChatGPT, и обойдётся в 10 раз дешевле.

Критика Alpha Arena: что не так с бенчмарком

Проблема 1: Малая выборка

17 дней, 6 моделей — это не статистически значимо.

Возможно, Qwen просто повезло попасть в благоприятный market regime.

Что нужно:

Минимум 3 месяца
Минимум 20 моделей
Разные market regimes (тренд, флэт, коррекция)

Проблема 2: Одна биржа, один актив-класс

Hyperliquid — это крипто. А как LLM справятся с акциями? С валютой? С сырьём?

Может, китайские модели хороши только в крипто.

Проблема 3: Закрытые промпты

Промпты моделей не раскрыты. Мы не знаем:

Какие инструкции получали модели
Какой context window использовался
Были ли дополнительные данные (кроме цен)

Возможно:

Организаторы дали китайским моделям более подробные промпты. Или наоборот, ChatGPT получил плохой промпт.

Проблема 4: $10k — малый капитал

На $10k легко заработать 30% за две недели с помощью luck и leverage.

На $1M заработать 30% за две недели почти невозможно (недостаточно ликвидности).

Вывод: Alpha Arena тестирует retail trading, не institutional.

Другие AI trading бенчмарки

Alpha Arena — не единственный бенчмарк.

1. Numerai

Numerai — крауд-фандированный хедж-фонд, где data scientists соревнуются в предсказании stock returns.

Формат:

Еженедельные туры
Участники обучают модели на зашифрованных данных
Стейкают криптовалюту NMR на свои предсказания
Winners получают выплаты

Отличия от Alpha Arena:

Не live-торговля, а предсказания
Горизонт: недели (не часы)
Актив: акции (не крипто)

2. Quantiacs

Quantiacs — платформа для алготрейдинга с реальными деньгами.

Формат:

Участники пишут стратегии на Python
Quantiacs выделяет capital ($1M+) на лучшие стратегии
Profit sharing: 10% прибыли участнику

Отличия:

Не LLM, а классические стратегии
Фокус на futures (не крипто)

3. Kaggle Competitions

Kaggle регулярно проводит финансовые соревнования:

Отличия:

Нет live-торговли
Предсказания на исторических данных
Нет реальных денег

Будущее AI в трейдинге: прогнозы

Сценарий 1: LLM как ассистенты (наиболее вероятно)

LLM не заменят трейдеров, но станут инструментом.

Применения:

Анализ новостей в реальном времени
Генерация идей для стратегий
Debugging торговых роботов
Автоматизация рутины (отчёты, логи)

Мы разберём это подробнее в следующих статьях.

Сценарий 2: Специализированные LLM для финансов (средняя вероятность)

Появятся модели, обученные исключительно на финансовых данных:

Bloomberg GPT (уже существует)
FinBERT, FinGPT
Proprietary models от хедж-фондов

Эти модели будут значительно лучше general-purpose LLM в финансовых задачах.

Сценарий 3: Полностью автономные AI-трейдеры (низкая вероятность)

LLM научатся торговать лучше людей во всех условиях.

Проблема:

Адаптация к black swan events (COVID-19, война)
Регуляторные ограничения (SEC может запретить автономные AI-трейдеры)
Adversarial trading (другие AI будут эксплуатировать слабости)

Сроки: Если вообще случится, то не раньше 2030 года.

Итоги

Alpha Arena показал три важных вещи:

LLM могут торговать — но не все одинаково хорошо
Дисциплина важнее интеллекта — меньше сделок, меньше плеча, адаптация к волатильности
Китайские модели конкурентоспособны — и в некоторых задачах лучше западных

Для алготрейдеров это значит:

❌ Не полагайтесь на LLM как на автономных трейдеров
✅ Используйте LLM как инструмент (sentiment, ideas, debugging)
✅ Изучайте стратегии победителей (Qwen, DeepSeek)
✅ Тестируйте китайские LLM API (дешевле и sometimes лучше)

Следующие шаги:

Если вас заинтересовала тема LLM в трейдинге:

Может ли LLM заменить квант-аналитика? — практический сценарий разработки стратегии
Где заканчивается помощь ИИ — риски “чёрного ящика”
Эксперимент: LLM + классика — можем ли улучшить стратегию с помощью ИИ-фильтров

Alpha Arena — это только начало. Бенчмарки AI-трейдеров станут нормой. И тот, кто научится правильно использовать LLM, получит edge.

Полезные ссылки:

Alpha Arena:

LLM в финансах:

Другие бенчмарки: