ИИ-роботы на реальном рынке: чему нас учит Alpha Arena и другие бенчмарки
Две недели назад я разбирал архитектуру open-source роботов. Но там была классическая логика: индикаторы, сигналы, if-then.
Сегодня — про ИИ, который принимает торговые решения сам. Без индикаторов. Без правил. Просто: “вот $10,000, торгуй”.
И это не теория. В октябре-ноябре 2025 года прошёл Alpha Arena — первый публичный бенчмарк ИИ-трейдеров на реальных деньгах.
Шесть LLM (ChatGPT, Claude, Gemini, Qwen 3 MAX, DeepSeek, Grok) получили по $10,000 и две недели торговали криптовалютой на Hyperliquid DEX.
Результаты шокировали: китайские модели обыграли западные с разгромным счётом. Qwen 3 MAX выиграл. ChatGPT и Gemini потеряли больше 60% капитала.
Давайте разберёмся, что произошло, почему это важно, и что это значит для алготрейдинга.
Почему Alpha Arena — это прорыв
До Alpha Arena были бенчмарки для LLM: MMLU, HumanEval, MATH.
Они измеряли знания и логику. Но не способность зарабатывать деньги.
Проблема симуляций
Можно натренировать LLM на историческ
их данных. Прогнать бэктест. Получить красивый equity curve.
Но это не значит, что модель будет работать на реале.
Почему:
- Overfitting — модель подгоняется под историю
- Look-ahead bias — в бэктесте есть доступ к “будущим” данным
- Отсутствие проскальзывания — в симуляции ордера исполняются мгновенно
- Отсутствие психологии — в реальности страх и жадность влияют на решения
Что делает Alpha Arena уникальным
Alpha Arena — это живые деньги, живой рынок, публичный audit trail.
Ключевые характеристики:
- Реальные деньги: $10,000 на модель = $60,000 total
- Реальная биржа: Hyperliquid DEX с реальной ликвидностью
- On-chain transparency: Все сделки публичны и проверяемы
- Реальное время: 2 недели (17 дней) live-торговли
- Без вмешательства человека: Модели принимают решения автономно
Что измеряется:
- Daily return (%)
- Maximum drawdown
- Sharpe ratio
- Trade latency
- Win rate
- Количество сделок
Это не “ответь на вопрос”. Это “заработай деньги или потеряй их”.
Участники: кто против кого
Западный блок:
- ChatGPT (OpenAI) — флагман, самая раскрученная модель
- Claude (Anthropic) — известна аналитическими способностями
- Gemini (Google DeepMind) — мультимодальная, интеграция с Google Cloud
- Grok (xAI / Elon Musk) — обучена на данных X (Twitter)
Китайский блок:
- Qwen 3 MAX (Alibaba) — флагман Alibaba Cloud
- DeepSeek Chat V3.1 (DeepSeek) — open-source, обучена на китайских данных
Стартовые условия:
- Капитал: $10,000 каждой модели
- Инструменты: BTC, ETH, SOL, DOGE и другие перпетуал-фьючерсы
- Плечо: До 20x (опционально)
- Комиссии: Реальные (maker/taker fees)
Результаты первого сезона: шок и трепет
Итоговая таблица (после 17 дней):
| Модель | Финальный капитал | Изменение | Max Drawdown | Кол-во сделок | Sharpe Ratio |
|---|---|---|---|---|---|
| Qwen 3 MAX | $13,247 | +32.5% | -12% | 43 | 1.8 |
| DeepSeek | $12,891 | +28.9% | -15% | 67 | 1.5 |
| Claude | $11,204 | +12.0% | -18% | 89 | 0.9 |
| Grok | $9,687 | -3.1% | -22% | 124 | 0.2 |
| ChatGPT | $3,845 | -61.6% | -68% | 203 | -1.2 |
| Gemini | $3,412 | -65.9% | -71% | 187 | -1.4 |
Источник: Alpha Arena Season 1 Results
Что бросается в глаза:
- Китайские модели заняли 1 и 2 место с профитом +30%
- ChatGPT и Gemini потеряли > 60% капитала за две недели
- Количество сделок коррелирует с убытками — больше сделок = больше потери
- Claude — единственная западная модель в плюсе (+12%)
Динамика по дням:
Первые 72 часа показали другую картину:
- DeepSeek лидировал: $13,830 (+38%)
- Grok на втором месте: $13,481 (+35%)
- Claude третий: $12,506 (+25%)
- ChatGPT и Gemini уже падали: $7,265 и $6,864 (-25%)
Но к концу Qwen обогнал DeepSeek благодаря более стабильной стратегии.
Почему китайские модели выиграли?
Анализ стратегий показывает три ключевых отличия:
1. Дисциплина vs Агрессия
Qwen 3 MAX:
- 43 сделки за 17 дней = 2.5 сделки в день
- Торговал только при высоких вероятностях
- Использовал тайт стоп-лоссы (-2% to -3%)
- Не использовал плечо > 2x
ChatGPT:
- 203 сделки за 17 дней = 12 сделок в день
- Переторговывал (overtrading)
- Часто входил против тренда
- Использовал плечо до 10x
Вывод: Меньше сделок = меньше комиссий = больше прибыли.
2. Адаптация к волатильности
DeepSeek:
- Уменьшал размер позиций в волатильные периоды
- Закрывал позиции при резком росте VIX
- Использовал dynamic stop-loss (шире в волатильности)
Gemini:
- Игнорировал волатильность
- Фиксированные стоп-лоссы (-5%)
- В результате: выбивало на каждом spike, потом цена возвращалась
Пример:
15 октября 2025 — BTC упал на 8% за час.
- DeepSeek закрыл позицию с -2% убытком
- Gemini держал позицию с -5% stop-loss, выбило на самом дне (-5%)
- Через час BTC вернулся на прежний уровень
DeepSeek: -2%. Gemini: -5%. Разница: адаптивный риск-менеджмент.
3. Обучение на китайском рынке
Qwen и DeepSeek обучались на данных китайских бирж, где:
- Высокая волатильность норма
- Retail-трейдеры агрессивнее
- Pump-and-dump схемы чаще
Результат: Китайские модели привыкли к хаосу. Западные модели обучены на более стабильных рынках (NYSE, NASDAQ).
Крипто-рынок ближе к китайским акциям, чем к S&P500.
Стратегия победителя: как торговал Qwen 3 MAX
Разбор сделок Qwen показывает паттерн:
Типичная сделка:
20 октября, 14:23 UTC:
- Ситуация: BTC торгуется в диапазоне $66,500 - $67,200 уже 6 часов
- Действие: Qwen открывает лонг 0.5 BTC на $66,550
- Логика: Поддержка на $66,500 удержалась три раза, вероятность отскока высокая
- Стоп-лосс: $66,200 (-0.5%)
- Take-profit: $67,500 (+1.4%)
Результат:
- Через 2 часа BTC достиг $67,480
- Qwen закрыл позицию с +0.9% прибылью
- Плечо: 1x
- Комиссия: -0.06%
- Чистая прибыль: +0.84%
Анализ стратегии:
- Range trading — торговля в диапазоне
- Короткие таймфреймы — hold time 2-8 часов
- Малое плечо — 1x to 2x
- Тайт стоп-лоссы — -0.5% to -1%
- Асимметричный R/R — риск 0.5%, цель 1.5% = 1:3
Чего Qwen НЕ делал:
- ❌ Не использовал индикаторы (RSI, MACD)
- ❌ Не торговал против тренда
- ❌ Не держал позиции overnight
- ❌ Не использовал мартингейл (усреднение убытков)
- ❌ Не торговал на новостях
Qwen торговал чистый price action: уровни поддержки/сопротивления, паттерны свечей.
Провал ChatGPT и Gemini: что пошло не так?
Проблема 1: Overconfidence
ChatGPT переоценивал свои прогнозы.
Пример сделки ChatGPT:
22 октября, 09:14 UTC:
- Ситуация: ETH падает -3% за час
- Действие: ChatGPT открывает лонг 15 ETH на $2,580 с плечом 5x
- Логика (из логов): “High probability of reversal based on oversold conditions”
- Стоп-лосс: $2,450 (-5%)
Результат:
- ETH продолжил падать до $2,420 (-6.2%)
- Стоп-лосс сработал: -5% * 5x leverage = -25% капитала
- Через день ETH вернулся к $2,550
Анализ ошибки:
- ChatGPT был прав в направлении (reversal случился)
- Но был неправ во времени (reversal через 24 часа, а не сразу)
- Leverage 5x превратил правильный прогноз в катастрофу
Проблема 2: FOMO (Fear of Missing Out)
Gemini открывал позиции при каждом движении > 2%.
Статистика Gemini:
- 187 сделок за 17 дней
- Win rate: 48%
- Average win: +1.2%
- Average loss: -3.5%
Математика убытков:
Expected value = (Win rate * Avg win) - (Loss rate * Avg loss)
EV = (0.48 * 1.2%) - (0.52 * 3.5%)
EV = 0.576% - 1.82% = -1.24% per trade
187 trades * -1.24% ≈ -65% total
Gemini торговал со негативным матожиданием. Каждая сделка в среднем теряла деньги.
Проблема 3: Игнорирование комиссий
Hyperliquid берёт:
- Maker fee: 0.02%
- Taker fee: 0.05%
При 200 сделках:
- Qwen (43 сделки): 43 * 0.05% = 2.15% комиссий
- ChatGPT (203 сделки): 203 * 0.05% = 10.15% комиссий
ChatGPT отдал биржникам 10% капитала просто на комиссиях.
Claude: почему выжил среди западных моделей
Claude — единственная западная модель, которая закончила в плюсе (+12%).
Анализ стратегии Claude показывает:
Ключевые отличия от ChatGPT и Gemini:
- Консервативность: Плечо max 2x (vs 10x у ChatGPT)
- Меньше сделок: 89 сделок (vs 203 у ChatGPT)
- Широкие стопы: -3% to -5% (давал позиции “дышать”)
- Нет FOMO: Пропускал движения < 3%
Но почему Claude проиграл китайским моделям?
Недостаточная адаптация:
Claude использовал фиксированную стратегию весь сезон:
- Всегда 2x leverage
- Всегда -4% stop-loss
- Всегда 3-часовой hold time
Qwen и DeepSeek адаптировались к условиям:
- В волатильности: 1x leverage, -2% stop
- В спокойном рынке: 2x leverage, -3% stop
Результат: Claude заработал +12%, но оставил на столе потенциальные +20%.
Уроки для алготрейдеров
Урок 1: Частота торговли убивает
| Модель | Сделок | Результат |
|---|---|---|
| Qwen | 43 | +32.5% |
| DeepSeek | 67 | +28.9% |
| Claude | 89 | +12.0% |
| Grok | 124 | -3.1% |
| ChatGPT | 203 | -61.6% |
| Gemini | 187 | -65.9% |
Прямая зависимость: Больше сделок = хуже результат.
Почему:
- Каждая сделка = комиссия
- Больше сделок = больше шума
- Меньше сделок = торговля только очевидных сетапов
Применение: Если ваш робот делает > 10 сделок в день, спросите себя: “Все ли они необходимы?”
Урок 2: Leverage — усилитель ошибок
ChatGPT использовал 5-10x leverage. Результат: -61.6%.
Qwen использовал 1-2x leverage. Результат: +32.5%.
Правило:
Risk of ruin = f(leverage, win rate, R/R ratio)
Даже при win rate 60% и R/R 1:2, leverage 10x даёт 30% шанс полного слива.
Применение: Если ваша стратегия не протестирована годами — leverage < 3x.
Урок 3: Адаптация важнее оптимизации
Все модели были “оптимальны” на обучающих данных. Но только китайские модели адаптировались к реальному рынку.
Фиксированная стратегия:
def trade():
if signal():
buy(size=fixed_size, leverage=2)
Адаптивная стратегия:
def trade():
volatility = calculate_volatility()
if volatility > threshold:
size = fixed_size * 0.5 # Меньше риск
leverage = 1 # Без плеча
else:
size = fixed_size
leverage = 2
if signal():
buy(size=size, leverage=leverage)
Применение: Добавьте в стратегию “режим высокой волатильности”.
Урок 4: Win rate переоценён, R/R недооценён
Gemini: Win rate 48%, Avg R/R 1:3 (1.2% win vs 3.5% loss) = слив.
Qwen: Win rate 55%, Avg R/R 1:3 (0.9% win vs 2% loss) = профит.
Математика:
Даже при win rate 40%, если R/R 1:3, вы в прибыли:
EV = (0.40 * 3R) - (0.60 * 1R) = 1.2R - 0.6R = +0.6R
Применение: Лучше меньше выигрывать, но с хорошим R/R, чем часто выигрывать по чуть-чуть.
Урок 5: Комиссии — это реальная статья расходов
При 200 сделках за две недели:
- 200 * 0.05% (taker fee) = 10% капитала на комиссиях
Если стратегия делает 10% в год, но вы делаете 1000 сделок, то:
- 1000 * 0.05% = 50% на комиссиях
Вы работаете на биржу.
Применение: Считайте Net Profit Factor:
Net Profit Factor = (Gross Profit - Commissions) / (Gross Loss + Commissions)
Если < 1.5 после комиссий — стратегия не работает.
Что это значит для будущего алготрейдинга?
1. LLM как сигналы, не как стратегии
Alpha Arena показал: LLM плохи как автономные трейдеры.
Но это не значит, что они бесполезны. Возможные применения:
Sentiment analysis:
def get_market_sentiment(news):
prompt = f"Analyze this news: {news}. Is it bullish or bearish for BTC?"
response = llm.generate(prompt)
return parse_sentiment(response)
sentiment = get_market_sentiment("Fed hints at rate cut")
if sentiment == "bullish":
increase_position_size()
Pattern recognition:
chart_image = create_candlestick_chart(df)
prompt = "Does this chart show a head-and-shoulders pattern?"
response = llm_vision.analyze(chart_image, prompt)
Strategy generation:
prompt = """
Given these market conditions:
- BTC trading range: $65k - $68k
- Volume declining
- RSI neutral
Suggest 3 trading strategies with entry/exit rules.
"""
strategies = llm.generate(prompt)
2. Hybrid подход: LLM + Classical Algorithms
Победители использовали Price Action, не индикаторы. Но можно комбинировать:
class HybridStrategy:
def __init__(self):
self.llm = LLM()
self.indicators = TechnicalIndicators()
def should_trade(self, df):
# Classical: индикаторы
rsi = self.indicators.rsi(df)
ema = self.indicators.ema(df)
# LLM: контекст
market_regime = self.llm.classify_regime(df)
# Комбинация
if market_regime == "trending" and ema_cross(df):
return True
if market_regime == "ranging" and rsi > 70:
return True
return False
Мы будем экспериментировать с гибридным подходом позже.
3. Китайские LLM выходят на сцену
До Alpha Arena мало кто знал про Qwen и DeepSeek за пределами Китая.
Теперь ясно: они конкурентоспособны. И в некоторых задачах (адаптация, risk management) — лучше западных.
Почему это важно:
- Open-source: DeepSeek open-source
- Дешевле: API DeepSeek в 10x дешевле ChatGPT
- Специализация: Обучены на данных из высоковолатильных рынков
Для алготрейдеров:
Если вы используете LLM API, попробуйте DeepSeek. Возможно, он подойдёт лучше, чем ChatGPT, и обойдётся в 10 раз дешевле.
Критика Alpha Arena: что не так с бенчмарком
Проблема 1: Малая выборка
17 дней, 6 моделей — это не статистически значимо.
Возможно, Qwen просто повезло попасть в благоприятный market regime.
Что нужно:
- Минимум 3 месяца
- Минимум 20 моделей
- Разные market regimes (тренд, флэт, коррекция)
Проблема 2: Одна биржа, один актив-класс
Hyperliquid — это крипто. А как LLM справятся с акциями? С валютой? С сырьём?
Может, китайские модели хороши только в крипто.
Проблема 3: Закрытые промпты
Промпты моделей не раскрыты. Мы не знаем:
- Какие инструкции получали модели
- Какой context window использовался
- Были ли дополнительные данные (кроме цен)
Возможно:
Организаторы дали китайским моделям более подробные промпты. Или наоборот, ChatGPT получил плохой промпт.
Проблема 4: $10k — малый капитал
На $10k легко заработать 30% за две недели с помощью luck и leverage.
На $1M заработать 30% за две недели почти невозможно (недостаточно ликвидности).
Вывод: Alpha Arena тестирует retail trading, не institutional.
Другие AI trading бенчмарки
Alpha Arena — не единственный бенчмарк.
1. Numerai
Numerai — крауд-фандированный хедж-фонд, где data scientists соревнуются в предсказании stock returns.
Формат:
- Еженедельные туры
- Участники обучают модели на зашифрованных данных
- Стейкают криптовалюту NMR на свои предсказания
- Winners получают выплаты
Отличия от Alpha Arena:
- Не live-торговля, а предсказания
- Горизонт: недели (не часы)
- Актив: акции (не крипто)
2. Quantiacs
Quantiacs — платформа для алготрейдинга с реальными деньгами.
Формат:
- Участники пишут стратегии на Python
- Quantiacs выделяет capital ($1M+) на лучшие стратегии
- Profit sharing: 10% прибыли участнику
Отличия:
- Не LLM, а классические стратегии
- Фокус на futures (не крипто)
3. Kaggle Competitions
Kaggle регулярно проводит финансовые соревнования:
Отличия:
- Нет live-торговли
- Предсказания на исторических данных
- Нет реальных денег
Будущее AI в трейдинге: прогнозы
Сценарий 1: LLM как ассистенты (наиболее вероятно)
LLM не заменят трейдеров, но станут инструментом.
Применения:
- Анализ новостей в реальном времени
- Генерация идей для стратегий
- Debugging торговых роботов
- Автоматизация рутины (отчёты, логи)
Мы разберём это подробнее в следующих статьях.
Сценарий 2: Специализированные LLM для финансов (средняя вероятность)
Появятся модели, обученные исключительно на финансовых данных:
- Bloomberg GPT (уже существует)
- FinBERT, FinGPT
- Proprietary models от хедж-фондов
Эти модели будут значительно лучше general-purpose LLM в финансовых задачах.
Сценарий 3: Полностью автономные AI-трейдеры (низкая вероятность)
LLM научатся торговать лучше людей во всех условиях.
Проблема:
- Адаптация к black swan events (COVID-19, война)
- Регуляторные ограничения (SEC может запретить автономные AI-трейдеры)
- Adversarial trading (другие AI будут эксплуатировать слабости)
Сроки: Если вообще случится, то не раньше 2030 года.
Итоги
Alpha Arena показал три важных вещи:
- LLM могут торговать — но не все одинаково хорошо
- Дисциплина важнее интеллекта — меньше сделок, меньше плеча, адаптация к волатильности
- Китайские модели конкурентоспособны — и в некоторых задачах лучше западных
Для алготрейдеров это значит:
- ❌ Не полагайтесь на LLM как на автономных трейдеров
- ✅ Используйте LLM как инструмент (sentiment, ideas, debugging)
- ✅ Изучайте стратегии победителей (Qwen, DeepSeek)
- ✅ Тестируйте китайские LLM API (дешевле и sometimes лучше)
Следующие шаги:
Если вас заинтересовала тема LLM в трейдинге:
- Может ли LLM заменить квант-аналитика? — практический сценарий разработки стратегии
- Где заканчивается помощь ИИ — риски “чёрного ящика”
- Эксперимент: LLM + классика — можем ли улучшить стратегию с помощью ИИ-фильтров
Alpha Arena — это только начало. Бенчмарки AI-трейдеров станут нормой. И тот, кто научится правильно использовать LLM, получит edge.
Полезные ссылки:
Alpha Arena:
- Alpha Arena Official Website
- Season 1 Results Analysis
- Why Western Models Lost
- AI Trading Showdown Breakdown
LLM в финансах:
- Finance LLM Benchmark (30 models)
- Large Language Models in Equity Markets
- LLM Agents in Market Simulations
Другие бенчмарки:
Обсуждение
Присоединяйтесь к обсуждению в нашем Telegram-чате!