Две недели назад я разбирал архитектуру open-source роботов. Но там была классическая логика: индикаторы, сигналы, if-then.

Сегодня — про ИИ, который принимает торговые решения сам. Без индикаторов. Без правил. Просто: “вот $10,000, торгуй”.

И это не теория. В октябре-ноябре 2025 года прошёл Alpha Arenaпервый публичный бенчмарк ИИ-трейдеров на реальных деньгах.

Шесть LLM (ChatGPT, Claude, Gemini, Qwen 3 MAX, DeepSeek, Grok) получили по $10,000 и две недели торговали криптовалютой на Hyperliquid DEX.

Результаты шокировали: китайские модели обыграли западные с разгромным счётом. Qwen 3 MAX выиграл. ChatGPT и Gemini потеряли больше 60% капитала.

Давайте разберёмся, что произошло, почему это важно, и что это значит для алготрейдинга.

Почему Alpha Arena — это прорыв

До Alpha Arena были бенчмарки для LLM: MMLU, HumanEval, MATH.

Они измеряли знания и логику. Но не способность зарабатывать деньги.

Проблема симуляций

Можно натренировать LLM на историческ

их данных. Прогнать бэктест. Получить красивый equity curve.

Но это не значит, что модель будет работать на реале.

Почему:

  1. Overfitting — модель подгоняется под историю
  2. Look-ahead bias — в бэктесте есть доступ к “будущим” данным
  3. Отсутствие проскальзывания — в симуляции ордера исполняются мгновенно
  4. Отсутствие психологии — в реальности страх и жадность влияют на решения

Что делает Alpha Arena уникальным

Alpha Arena — это живые деньги, живой рынок, публичный audit trail.

Ключевые характеристики:

  • Реальные деньги: $10,000 на модель = $60,000 total
  • Реальная биржа: Hyperliquid DEX с реальной ликвидностью
  • On-chain transparency: Все сделки публичны и проверяемы
  • Реальное время: 2 недели (17 дней) live-торговли
  • Без вмешательства человека: Модели принимают решения автономно

Что измеряется:

  • Daily return (%)
  • Maximum drawdown
  • Sharpe ratio
  • Trade latency
  • Win rate
  • Количество сделок

Это не “ответь на вопрос”. Это “заработай деньги или потеряй их”.

Участники: кто против кого

Шесть моделей вышли на ринг:

Западный блок:

  1. ChatGPT (OpenAI) — флагман, самая раскрученная модель
  2. Claude (Anthropic) — известна аналитическими способностями
  3. Gemini (Google DeepMind) — мультимодальная, интеграция с Google Cloud
  4. Grok (xAI / Elon Musk) — обучена на данных X (Twitter)

Китайский блок:

  1. Qwen 3 MAX (Alibaba) — флагман Alibaba Cloud
  2. DeepSeek Chat V3.1 (DeepSeek) — open-source, обучена на китайских данных

Стартовые условия:

  • Капитал: $10,000 каждой модели
  • Инструменты: BTC, ETH, SOL, DOGE и другие перпетуал-фьючерсы
  • Плечо: До 20x (опционально)
  • Комиссии: Реальные (maker/taker fees)

Результаты первого сезона: шок и трепет

Итоговая таблица (после 17 дней):

Модель Финальный капитал Изменение Max Drawdown Кол-во сделок Sharpe Ratio
Qwen 3 MAX $13,247 +32.5% -12% 43 1.8
DeepSeek $12,891 +28.9% -15% 67 1.5
Claude $11,204 +12.0% -18% 89 0.9
Grok $9,687 -3.1% -22% 124 0.2
ChatGPT $3,845 -61.6% -68% 203 -1.2
Gemini $3,412 -65.9% -71% 187 -1.4

Источник: Alpha Arena Season 1 Results

Что бросается в глаза:

  1. Китайские модели заняли 1 и 2 место с профитом +30%
  2. ChatGPT и Gemini потеряли > 60% капитала за две недели
  3. Количество сделок коррелирует с убытками — больше сделок = больше потери
  4. Claude — единственная западная модель в плюсе (+12%)

Динамика по дням:

Первые 72 часа показали другую картину:

  • DeepSeek лидировал: $13,830 (+38%)
  • Grok на втором месте: $13,481 (+35%)
  • Claude третий: $12,506 (+25%)
  • ChatGPT и Gemini уже падали: $7,265 и $6,864 (-25%)

Но к концу Qwen обогнал DeepSeek благодаря более стабильной стратегии.

Почему китайские модели выиграли?

Анализ стратегий показывает три ключевых отличия:

1. Дисциплина vs Агрессия

Qwen 3 MAX:

  • 43 сделки за 17 дней = 2.5 сделки в день
  • Торговал только при высоких вероятностях
  • Использовал тайт стоп-лоссы (-2% to -3%)
  • Не использовал плечо > 2x

ChatGPT:

  • 203 сделки за 17 дней = 12 сделок в день
  • Переторговывал (overtrading)
  • Часто входил против тренда
  • Использовал плечо до 10x

Вывод: Меньше сделок = меньше комиссий = больше прибыли.

2. Адаптация к волатильности

DeepSeek:

  • Уменьшал размер позиций в волатильные периоды
  • Закрывал позиции при резком росте VIX
  • Использовал dynamic stop-loss (шире в волатильности)

Gemini:

  • Игнорировал волатильность
  • Фиксированные стоп-лоссы (-5%)
  • В результате: выбивало на каждом spike, потом цена возвращалась

Пример:

15 октября 2025 — BTC упал на 8% за час.

  • DeepSeek закрыл позицию с -2% убытком
  • Gemini держал позицию с -5% stop-loss, выбило на самом дне (-5%)
  • Через час BTC вернулся на прежний уровень

DeepSeek: -2%. Gemini: -5%. Разница: адаптивный риск-менеджмент.

3. Обучение на китайском рынке

Qwen и DeepSeek обучались на данных китайских бирж, где:

  • Высокая волатильность норма
  • Retail-трейдеры агрессивнее
  • Pump-and-dump схемы чаще

Результат: Китайские модели привыкли к хаосу. Западные модели обучены на более стабильных рынках (NYSE, NASDAQ).

Крипто-рынок ближе к китайским акциям, чем к S&P500.

Стратегия победителя: как торговал Qwen 3 MAX

Разбор сделок Qwen показывает паттерн:

Типичная сделка:

20 октября, 14:23 UTC:

  • Ситуация: BTC торгуется в диапазоне $66,500 - $67,200 уже 6 часов
  • Действие: Qwen открывает лонг 0.5 BTC на $66,550
  • Логика: Поддержка на $66,500 удержалась три раза, вероятность отскока высокая
  • Стоп-лосс: $66,200 (-0.5%)
  • Take-profit: $67,500 (+1.4%)

Результат:

  • Через 2 часа BTC достиг $67,480
  • Qwen закрыл позицию с +0.9% прибылью
  • Плечо: 1x
  • Комиссия: -0.06%
  • Чистая прибыль: +0.84%

Анализ стратегии:

  1. Range trading — торговля в диапазоне
  2. Короткие таймфреймы — hold time 2-8 часов
  3. Малое плечо — 1x to 2x
  4. Тайт стоп-лоссы — -0.5% to -1%
  5. Асимметричный R/R — риск 0.5%, цель 1.5% = 1:3

Чего Qwen НЕ делал:

  • ❌ Не использовал индикаторы (RSI, MACD)
  • ❌ Не торговал против тренда
  • ❌ Не держал позиции overnight
  • ❌ Не использовал мартингейл (усреднение убытков)
  • ❌ Не торговал на новостях

Qwen торговал чистый price action: уровни поддержки/сопротивления, паттерны свечей.

Провал ChatGPT и Gemini: что пошло не так?

Проблема 1: Overconfidence

ChatGPT переоценивал свои прогнозы.

Пример сделки ChatGPT:

22 октября, 09:14 UTC:

  • Ситуация: ETH падает -3% за час
  • Действие: ChatGPT открывает лонг 15 ETH на $2,580 с плечом 5x
  • Логика (из логов): “High probability of reversal based on oversold conditions”
  • Стоп-лосс: $2,450 (-5%)

Результат:

  • ETH продолжил падать до $2,420 (-6.2%)
  • Стоп-лосс сработал: -5% * 5x leverage = -25% капитала
  • Через день ETH вернулся к $2,550

Анализ ошибки:

  • ChatGPT был прав в направлении (reversal случился)
  • Но был неправ во времени (reversal через 24 часа, а не сразу)
  • Leverage 5x превратил правильный прогноз в катастрофу

Проблема 2: FOMO (Fear of Missing Out)

Gemini открывал позиции при каждом движении > 2%.

Статистика Gemini:

  • 187 сделок за 17 дней
  • Win rate: 48%
  • Average win: +1.2%
  • Average loss: -3.5%

Математика убытков:

Expected value = (Win rate * Avg win) - (Loss rate * Avg loss)
EV = (0.48 * 1.2%) - (0.52 * 3.5%)
EV = 0.576% - 1.82% = -1.24% per trade

187 trades * -1.24% ≈ -65% total

Gemini торговал со негативным матожиданием. Каждая сделка в среднем теряла деньги.

Проблема 3: Игнорирование комиссий

Hyperliquid берёт:

  • Maker fee: 0.02%
  • Taker fee: 0.05%

При 200 сделках:

  • Qwen (43 сделки): 43 * 0.05% = 2.15% комиссий
  • ChatGPT (203 сделки): 203 * 0.05% = 10.15% комиссий

ChatGPT отдал биржникам 10% капитала просто на комиссиях.

Claude: почему выжил среди западных моделей

Claude — единственная западная модель, которая закончила в плюсе (+12%).

Анализ стратегии Claude показывает:

Ключевые отличия от ChatGPT и Gemini:

  1. Консервативность: Плечо max 2x (vs 10x у ChatGPT)
  2. Меньше сделок: 89 сделок (vs 203 у ChatGPT)
  3. Широкие стопы: -3% to -5% (давал позиции “дышать”)
  4. Нет FOMO: Пропускал движения < 3%

Но почему Claude проиграл китайским моделям?

Недостаточная адаптация:

Claude использовал фиксированную стратегию весь сезон:

  • Всегда 2x leverage
  • Всегда -4% stop-loss
  • Всегда 3-часовой hold time

Qwen и DeepSeek адаптировались к условиям:

  • В волатильности: 1x leverage, -2% stop
  • В спокойном рынке: 2x leverage, -3% stop

Результат: Claude заработал +12%, но оставил на столе потенциальные +20%.

Уроки для алготрейдеров

Урок 1: Частота торговли убивает

Модель Сделок Результат
Qwen 43 +32.5%
DeepSeek 67 +28.9%
Claude 89 +12.0%
Grok 124 -3.1%
ChatGPT 203 -61.6%
Gemini 187 -65.9%

Прямая зависимость: Больше сделок = хуже результат.

Почему:

  • Каждая сделка = комиссия
  • Больше сделок = больше шума
  • Меньше сделок = торговля только очевидных сетапов

Применение: Если ваш робот делает > 10 сделок в день, спросите себя: “Все ли они необходимы?”

Урок 2: Leverage — усилитель ошибок

ChatGPT использовал 5-10x leverage. Результат: -61.6%.

Qwen использовал 1-2x leverage. Результат: +32.5%.

Правило:

Risk of ruin = f(leverage, win rate, R/R ratio)

Даже при win rate 60% и R/R 1:2, leverage 10x даёт 30% шанс полного слива.

Применение: Если ваша стратегия не протестирована годами — leverage < 3x.

Урок 3: Адаптация важнее оптимизации

Все модели были “оптимальны” на обучающих данных. Но только китайские модели адаптировались к реальному рынку.

Фиксированная стратегия:

def trade():
    if signal():
        buy(size=fixed_size, leverage=2)

Адаптивная стратегия:

def trade():
    volatility = calculate_volatility()
    if volatility > threshold:
        size = fixed_size * 0.5  # Меньше риск
        leverage = 1              # Без плеча
    else:
        size = fixed_size
        leverage = 2

    if signal():
        buy(size=size, leverage=leverage)

Применение: Добавьте в стратегию “режим высокой волатильности”.

Урок 4: Win rate переоценён, R/R недооценён

Gemini: Win rate 48%, Avg R/R 1:3 (1.2% win vs 3.5% loss) = слив.

Qwen: Win rate 55%, Avg R/R 1:3 (0.9% win vs 2% loss) = профит.

Математика:

Даже при win rate 40%, если R/R 1:3, вы в прибыли:

EV = (0.40 * 3R) - (0.60 * 1R) = 1.2R - 0.6R = +0.6R

Применение: Лучше меньше выигрывать, но с хорошим R/R, чем часто выигрывать по чуть-чуть.

Урок 5: Комиссии — это реальная статья расходов

При 200 сделках за две недели:

  • 200 * 0.05% (taker fee) = 10% капитала на комиссиях

Если стратегия делает 10% в год, но вы делаете 1000 сделок, то:

  • 1000 * 0.05% = 50% на комиссиях

Вы работаете на биржу.

Применение: Считайте Net Profit Factor:

Net Profit Factor = (Gross Profit - Commissions) / (Gross Loss + Commissions)

Если < 1.5 после комиссий — стратегия не работает.

Что это значит для будущего алготрейдинга?

1. LLM как сигналы, не как стратегии

Alpha Arena показал: LLM плохи как автономные трейдеры.

Но это не значит, что они бесполезны. Возможные применения:

Sentiment analysis:

def get_market_sentiment(news):
    prompt = f"Analyze this news: {news}. Is it bullish or bearish for BTC?"
    response = llm.generate(prompt)
    return parse_sentiment(response)

sentiment = get_market_sentiment("Fed hints at rate cut")
if sentiment == "bullish":
    increase_position_size()

Pattern recognition:

chart_image = create_candlestick_chart(df)
prompt = "Does this chart show a head-and-shoulders pattern?"
response = llm_vision.analyze(chart_image, prompt)

Strategy generation:

prompt = """
Given these market conditions:
- BTC trading range: $65k - $68k
- Volume declining
- RSI neutral

Suggest 3 trading strategies with entry/exit rules.
"""
strategies = llm.generate(prompt)

2. Hybrid подход: LLM + Classical Algorithms

Победители использовали Price Action, не индикаторы. Но можно комбинировать:

class HybridStrategy:
    def __init__(self):
        self.llm = LLM()
        self.indicators = TechnicalIndicators()

    def should_trade(self, df):
        # Classical: индикаторы
        rsi = self.indicators.rsi(df)
        ema = self.indicators.ema(df)

        # LLM: контекст
        market_regime = self.llm.classify_regime(df)

        # Комбинация
        if market_regime == "trending" and ema_cross(df):
            return True
        if market_regime == "ranging" and rsi > 70:
            return True
        return False

Мы будем экспериментировать с гибридным подходом позже.

3. Китайские LLM выходят на сцену

До Alpha Arena мало кто знал про Qwen и DeepSeek за пределами Китая.

Теперь ясно: они конкурентоспособны. И в некоторых задачах (адаптация, risk management) — лучше западных.

Почему это важно:

  • Open-source: DeepSeek open-source
  • Дешевле: API DeepSeek в 10x дешевле ChatGPT
  • Специализация: Обучены на данных из высоковолатильных рынков

Для алготрейдеров:

Если вы используете LLM API, попробуйте DeepSeek. Возможно, он подойдёт лучше, чем ChatGPT, и обойдётся в 10 раз дешевле.

Критика Alpha Arena: что не так с бенчмарком

Проблема 1: Малая выборка

17 дней, 6 моделей — это не статистически значимо.

Возможно, Qwen просто повезло попасть в благоприятный market regime.

Что нужно:

  • Минимум 3 месяца
  • Минимум 20 моделей
  • Разные market regimes (тренд, флэт, коррекция)

Проблема 2: Одна биржа, один актив-класс

Hyperliquid — это крипто. А как LLM справятся с акциями? С валютой? С сырьём?

Может, китайские модели хороши только в крипто.

Проблема 3: Закрытые промпты

Промпты моделей не раскрыты. Мы не знаем:

  • Какие инструкции получали модели
  • Какой context window использовался
  • Были ли дополнительные данные (кроме цен)

Возможно:

Организаторы дали китайским моделям более подробные промпты. Или наоборот, ChatGPT получил плохой промпт.

Проблема 4: $10k — малый капитал

На $10k легко заработать 30% за две недели с помощью luck и leverage.

На $1M заработать 30% за две недели почти невозможно (недостаточно ликвидности).

Вывод: Alpha Arena тестирует retail trading, не institutional.

Другие AI trading бенчмарки

Alpha Arena — не единственный бенчмарк.

1. Numerai

Numerai — крауд-фандированный хедж-фонд, где data scientists соревнуются в предсказании stock returns.

Формат:

  • Еженедельные туры
  • Участники обучают модели на зашифрованных данных
  • Стейкают криптовалюту NMR на свои предсказания
  • Winners получают выплаты

Отличия от Alpha Arena:

  • Не live-торговля, а предсказания
  • Горизонт: недели (не часы)
  • Актив: акции (не крипто)

2. Quantiacs

Quantiacs — платформа для алготрейдинга с реальными деньгами.

Формат:

  • Участники пишут стратегии на Python
  • Quantiacs выделяет capital ($1M+) на лучшие стратегии
  • Profit sharing: 10% прибыли участнику

Отличия:

  • Не LLM, а классические стратегии
  • Фокус на futures (не крипто)

3. Kaggle Competitions

Kaggle регулярно проводит финансовые соревнования:

Отличия:

  • Нет live-торговли
  • Предсказания на исторических данных
  • Нет реальных денег

Будущее AI в трейдинге: прогнозы

Сценарий 1: LLM как ассистенты (наиболее вероятно)

LLM не заменят трейдеров, но станут инструментом.

Применения:

  • Анализ новостей в реальном времени
  • Генерация идей для стратегий
  • Debugging торговых роботов
  • Автоматизация рутины (отчёты, логи)

Мы разберём это подробнее в следующих статьях.

Сценарий 2: Специализированные LLM для финансов (средняя вероятность)

Появятся модели, обученные исключительно на финансовых данных:

Эти модели будут значительно лучше general-purpose LLM в финансовых задачах.

Сценарий 3: Полностью автономные AI-трейдеры (низкая вероятность)

LLM научатся торговать лучше людей во всех условиях.

Проблема:

  • Адаптация к black swan events (COVID-19, война)
  • Регуляторные ограничения (SEC может запретить автономные AI-трейдеры)
  • Adversarial trading (другие AI будут эксплуатировать слабости)

Сроки: Если вообще случится, то не раньше 2030 года.

Итоги

Alpha Arena показал три важных вещи:

  1. LLM могут торговать — но не все одинаково хорошо
  2. Дисциплина важнее интеллекта — меньше сделок, меньше плеча, адаптация к волатильности
  3. Китайские модели конкурентоспособны — и в некоторых задачах лучше западных

Для алготрейдеров это значит:

  • ❌ Не полагайтесь на LLM как на автономных трейдеров
  • ✅ Используйте LLM как инструмент (sentiment, ideas, debugging)
  • ✅ Изучайте стратегии победителей (Qwen, DeepSeek)
  • ✅ Тестируйте китайские LLM API (дешевле и sometimes лучше)

Следующие шаги:

Если вас заинтересовала тема LLM в трейдинге:

Alpha Arena — это только начало. Бенчмарки AI-трейдеров станут нормой. И тот, кто научится правильно использовать LLM, получит edge.


Полезные ссылки:

Alpha Arena:

LLM в финансах:

Другие бенчмарки: