RuQualBench Leaderboard 🐸

Бенчмарк качества русского языка для LLM

# Модель Критичные/1000 Обычные/1000 Доп./1000 Нормировано ошибок Всего токенов
#1 Claude Sonnet 4.5 0.07 ± 0.01 0.18 ± 0.02 0.12 ± 0.01
0.38 ± 0.04
121,783
#2 GPT-4o 0.03 ± 0.01 0.21 ± 0.05 0.34 ± 0.08
0.44 ± 0.04
55,547
#3 Gemini 2.5 Flash (GA) 0.08 ± 0.02 0.21 ± 0.03 0.24 ± 0.01
0.48 ± 0.03
151,942
#4 Vikhrmodels/Vistral-24B-Instruct (SGLang) 0.08 ± 0.02 0.31 ± 0.04 0.12 ± 0.03
0.53 ± 0.02
85,900
#5 Gemma-3-27b-it (SGLang) 0.08 ± 0.02 0.28 ± 0.02 0.31 ± 0.05
0.59 ± 0.06
101,336
#6 Mistral-Small-3.2-24B-Instruct-2506 (vllm) 0.10 ± 0.03 0.41 ± 0.02 0.17 ± 0.02
0.69 ± 0.05
74,469
#7 DeepSeek V3 (Novita API) 0.15 0.34 ± 0.03 0.12 ± 0.02
0.70 ± 0.02
75,606
#8 RefalMachine/RuadaptQwen3-32B-Instruct (SGLang) 0.09 ± 0.02 0.39 ± 0.05 0.26 ± 0.06
0.71 ± 0.12
163,424
#9 yandex/YandexGPT-5-Lite-8B-instruct (SGLang) 0.09 0.26 ± 0.03 0.69 ± 0.04
0.78 ± 0.05
47,060
#10 Claude Haiku 4.5 0.12 ± 0.02 0.47 ± 0.03 0.25 ± 0.06
0.84 ± 0.02
114,212
#11 GigaChat-20B-A3B-instruct-v1.5 (SGLang) 0.06 ± 0.01 0.40 ± 0.02 1.03 ± 0.06
1.04 ± 0.01
74,836
#12 Deepseek V3.2-Exp (Deepseek API) 0.26 ± 0.02 0.47 ± 0.04 0.24 ± 0.05
1.10 ± 0.03
135,889
#13 Qwen3-Next-80B-A3B-Instruct (Alibaba API) 0.19 ± 0.02 0.73 ± 0.03 0.23 ± 0.03
1.22 ± 0.02
175,847
#14 baidu/ERNIE-4.5-300B-A47B-PT (Novita API) 0.11 ± 0.01 0.74 ± 0.04 0.52 ± 0.03
1.22 ± 0.05
95,684
#15 t-tech/T-pro-it-2.0 (SGLang, without reasoning) 0.26 ± 0.05 0.68 ± 0.04 0.15 ± 0.02
1.27 ± 0.11
132,071
#16 tiiuae/Falcon-H1-34B-Instruct (vllm) 0.22 ± 0.04 0.77 ± 0.06 0.42 ± 0.09
1.43 ± 0.10
60,048
#17 Qwen3-235B-A22B-2507-Instruct (Alibaba API) 0.46 ± 0.19 0.56 ± 0.04 0.16 ± 0.01
1.55 ± 0.35
137,855
#18 Qwen3-VL-8B-Instruct (Alibaba API, presence_penalty=2) 0.24 ± 0.03 1.02 ± 0.05 0.32 ± 0.01
1.66 ± 0.11
165,307
#19 moonshotai/Kimi-K2-Instruct-0905 (Novita API) 0.39 ± 0.10 0.83 ± 0.04 0.26 ± 0.03
1.73 ± 0.16
100,380
#20 GLM-4.6 (Z.ai API) 0.49 ± 0.07 0.71 ± 0.07 0.17 ± 0.03
1.78 ± 0.17
151,775
#21 GPT-5 (reasoning: minimal) 0.30 ± 0.05 1.09 ± 0.04 0.28 ± 0.03
1.84 ± 0.05
163,827
#22 GPT-5 (reasoning: low) 0.25 ± 0.01 1.40 ± 0.13 0.40 ± 0.01
2.09 ± 0.12
165,854
#23 nvidia/NVIDIA-Nemotron-Nano-12B-v2 (vllm, reasoning=false) 0.38 ± 0.06 1.18 ± 0.10 0.45 ± 0.03
2.17 ± 0.22
86,045
#24 GPT-OSS-120B (Vertex AI API) 0.37 ± 0.05 1.36 ± 0.08 0.40 ± 0.01
2.29 ± 0.17
183,215
#25 Mistral-Nemo (Mistral API) 0.51 ± 0.07 1.17 ± 0.09 1.15 ± 0.12
2.77 ± 0.24
53,243

Метрики показывают ошибки русского языка, подсчитанные на 1000 токенов ответа:

"Критичные" - грубые нарушения (проблемы в соглавсовании слов, вставки на других языках, наиболее неестественные придуманные слова);

"Обычные" - заметные ошибки (кальки, согласование и т.п.);

"Дополнительные" - малозначимые нарушения, почти не влияющие на читаемость.

Значения нормированы на 1000 токенов o200k_base текста; "±" - стандартная ошибка (SE) по серии прогонов, если запусков было несколько. Чем меньше "Нормировано ошибок", тем лучше.

"Нормировано ошибок" - взвешенная метрика: критичные ошибки умножаются на 2, обычные - на 1, дополнительные - на 0.5; сумма нормируется на 1000 токенов ответа.

Результаты для Gemini 2.5 Flash Lite могут быть завышеными.

Если хотите, чтобы я добавил ту или иную модель в лидерборд - не стесняйтесь открыть issue/pull request на Github.

Обновлено: 2025-10-24 14:31:35 | Всего моделей: 25 | GitHub | Telegram