RuQualBench Leaderboard 🐸

Бенчмарк качества русского языка для LLM

# Модель Критичные/1000 Обычные/1000 Доп./1000 Нормировано ошибок Всего токенов
#1 GigaChat-3.1-Ultra 0.02 0.10 ± 0.01 0.12 ± 0.01
0.20 ± 0.02
132,772
#2 Claude Opus 4.5 0.05 ± 0.01 0.12 ± 0.02 0.05 ± 0.02
0.24 ± 0.04
125,802
#3 Deepseek V4 Pro Instant 0.04 ± 0.01 0.12 ± 0.01 0.16 ± 0.04
0.28 ± 0.01
141,593
#4 Mistral Large 3 2512 (Mistral API) 0.04 ± 0.01 0.16 ± 0.02 0.12 ± 0.01
0.30 ± 0.04
136,383
#5 YandexGPT 5.1 Pro 0.02 ± 0.02 0.22 ± 0.04 0.19 ± 0.03
0.34 ± 0.03
55,293
#6 Deepseek V4 Flash Instant 0.06 ± 0.01 0.17 ± 0.01 0.10 ± 0.02
0.34 ± 0.03
125,963
#7 Gemini 3 Pro Preview 0.06 ± 0.01 0.16 ± 0.01 0.17 ± 0.01
0.37 ± 0.03
133,886
#8 Claude Sonnet 4.5 0.07 ± 0.01 0.18 ± 0.02 0.12 ± 0.01
0.38 ± 0.04
121,783
#9 Gemma 4 31B it 0.06 ± 0.01 0.20 ± 0.02 0.21 ± 0.03
0.43 ± 0.02
109,327
#10 GPT-4o 0.03 ± 0.01 0.21 ± 0.05 0.34 ± 0.08
0.44 ± 0.04
55,547
#11 Gemma 4 26B-A4B it 0.05 0.26 0.18 ± 0.02
0.45 ± 0.01
106,364
#12 Gemini 2.5 Flash (GA) 0.08 ± 0.02 0.21 ± 0.03 0.24 ± 0.01
0.48 ± 0.03
151,942
#13 MiniMaxAI/MiniMax-Text-01 (Minimax API) 0.04 ± 0.02 0.21 ± 0.04 0.46 ± 0.02
0.51 ± 0.07
72,187
#14 Vikhrmodels/Vistral-24B-Instruct (SGLang) 0.08 ± 0.02 0.31 ± 0.04 0.12 ± 0.03
0.53 ± 0.02
85,900
#15 qwen/qwen3.5-122b-a10b, non-reasoning, Alibaba API 0.06 0.32 ± 0.01 0.18
0.53 ± 0.01
144,696
#16 Sehyo/Qwen3.5-122B-A10B-NVFP4, non-reasoning 0.07 ± 0.01 0.32 ± 0.01 0.17 ± 0.01
0.56 ± 0.04
152,491
#17 Qwen3.6 Plus Preview (reasoning) 0.13 ± 0.04 0.25 ± 0.02 0.13 ± 0.04
0.58 ± 0.07
128,568
#18 Gemma-3-27b-it (SGLang) 0.08 ± 0.02 0.28 ± 0.02 0.31 ± 0.05
0.59 ± 0.06
101,336
#19 Qwen/Qwen3-235B-A22B-Instruct-2507 (Vertex AI API) 0.09 ± 0.01 0.33 ± 0.06 0.17 ± 0.03
0.60 ± 0.07
133,057
#20 qwen/qwen3.5-35b-a3b, non-reasoning, Alibaba API 0.11 ± 0.03 0.32 ± 0.02 0.20 ± 0.01
0.64 ± 0.05
156,251
#21 cyankiwi/Qwen3.5-122B-A10B-AWQ-4bit, non-reasoning 0.09 ± 0.01 0.35 ± 0.03 0.21 ± 0.03
0.64 ± 0.05
150,727
#22 Mistral-Small-3.2-24B-Instruct-2506 (vllm) 0.10 ± 0.03 0.41 ± 0.02 0.17 ± 0.02
0.69 ± 0.05
74,469
#23 qwen/qwen3.6-27b (non-reasoning), Alibaba API 0.09 0.42 ± 0.04 0.16 ± 0.01
0.69 ± 0.03
137,002
#24 DeepSeek V3 (Novita API) 0.15 0.34 ± 0.03 0.12 ± 0.02
0.70 ± 0.02
75,606
#25 GLM-5.2 (non-reasoning), Z.ai API 0.15 ± 0.01 0.34 ± 0.02 0.12 ± 0.02
0.70 ± 0.01
143,117
#26 RefalMachine/RuadaptQwen3-32B-Instruct (SGLang) 0.09 ± 0.02 0.39 ± 0.05 0.26 ± 0.06
0.71 ± 0.12
163,424
#27 qwen/qwen3.5-122b-a10b, non-reasoning, Alibaba API, temp=0.3 0.11 ± 0.01 0.38 ± 0.02 0.26 ± 0.03
0.72 ± 0.02
144,918
#28 Nex N2 Pro 0.20 ± 0.02 0.28 ± 0.04 0.11 ± 0.03
0.74 ± 0.07
111,476
#29 olka-fi/Qwen3.5-122B-A10B-MXFP4, non-reasoning 0.07 ± 0.01 0.43 ± 0.04 0.36 ± 0.14
0.75 ± 0.06
154,775
#30 GLM-5.1 (non-reasoning), Z.ai API 0.10 ± 0.01 0.46 ± 0.03 0.18 ± 0.01
0.76 ± 0.01
129,848
#31 yandex/YandexGPT-5-Lite-8B-instruct (SGLang) 0.09 0.26 ± 0.03 0.69 ± 0.04
0.78 ± 0.05
47,060
#32 qwen/qwen3.5-397b-a17b, non-reasoning, Alibaba API 0.19 ± 0.02 0.34 ± 0.05 0.13 ± 0.02
0.78 ± 0.08
147,482
#33 qwen/qwen3.5-397b-a17b, non-reasoning, Novita API 0.21 ± 0.03 0.30 ± 0.02 0.16 ± 0.01
0.79 ± 0.06
150,742
#34 unsloth/Qwen3.5-122B-A10B-GGUF:MXFP4_MOE, non-reasoning 0.14 ± 0.05 0.39 ± 0.01 0.23 ± 0.06
0.79 ± 0.12
147,651
#35 Deepseek-V3.2-chat (Deepseek API) 0.18 ± 0.02 0.38 ± 0.03 0.16 ± 0.01
0.82 ± 0.08
126,768
#36 qwen/qwen3.5-27b (non-reasoning), Alibaba API 0.13 ± 0.02 0.47 ± 0.02 0.16 ± 0.01
0.82 ± 0.06
153,141
#37 Claude Haiku 4.5 0.12 ± 0.02 0.47 ± 0.03 0.25 ± 0.06
0.84 ± 0.02
114,212
#38 t-tech/T-pro-it-2.1 (sglang) 0.21 ± 0.14 0.37 ± 0.03 0.13 ± 0.01
0.86 ± 0.25
145,816
#39 Qwen3-VL-32B-Instruct (SGLang) 0.12 ± 0.02 0.52 ± 0.02 0.27 ± 0.03
0.89 ± 0.07
147,626
#40 qwen/qwen3.5-27b, non-reasoning, Alibaba API, temp=0.6 0.12 ± 0.01 0.53 ± 0.11 0.23 ± 0.02
0.89 ± 0.13
156,886
#41 AvitoTech/avibe 0.06 0.65 ± 0.04 0.44 ± 0.05
0.99 ± 0.06
88,360
#42 Pony Alpha (temp=0.6) 0.22 ± 0.04 0.43 ± 0.04 0.24 ± 0.02
0.99 ± 0.07
126,482
#43 GigaChat-20B-A3B-instruct-v1.5 (SGLang) 0.06 ± 0.01 0.40 ± 0.02 1.03 ± 0.06
1.04 ± 0.01
74,836
#44 Deepseek-V3.2-reasoner (Deepseek API) 0.21 ± 0.04 0.57 ± 0.05 0.17 ± 0.03
1.07 ± 0.06
118,309
#45 mistralai/Ministral-3-14B-Instruct-2512 (Mistral API) 0.15 ± 0.01 0.67 ± 0.02 0.22 ± 0.04
1.09 ± 0.03
126,574
#46 Deepseek V3.2-Exp (Deepseek API) 0.26 ± 0.02 0.47 ± 0.04 0.24 ± 0.05
1.10 ± 0.03
135,889
#47 google/gemma-3n-E4B-it (AI Studio) 0.18 ± 0.01 0.50 ± 0.02 0.48 ± 0.07
1.11
99,646
#48 mistralai/Ministral-3-8B-Instruct-2512 (Mistral API) 0.13 ± 0.02 0.79 ± 0.02 0.25 ± 0.01
1.17 ± 0.03
133,214
#49 Qwen3-Next-80B-A3B-Instruct (Alibaba API) 0.19 ± 0.02 0.73 ± 0.03 0.23 ± 0.03
1.22 ± 0.02
175,847
#50 baidu/ERNIE-4.5-300B-A47B-PT (Novita API) 0.11 ± 0.01 0.74 ± 0.04 0.52 ± 0.03
1.22 ± 0.05
95,684
#51 Xiaomi Mimo V2 Flash (Xiaomi API, non-reasoning) 0.28 ± 0.05 0.59 ± 0.01 0.20 ± 0.03
1.24 ± 0.11
140,821
#52 Qwen3-32B (SGLang, without reasoining) 0.13 ± 0.03 0.84 ± 0.03 0.29 ± 0.03
1.25 ± 0.04
99,705
#53 moonshotai/Kimi-K2.5 (non-reasoning, Moonshot AI API) 0.22 ± 0.05 0.71 ± 0.07 0.21 ± 0.03
1.26 ± 0.11
142,514
#54 t-tech/T-pro-it-2.0 (SGLang, without reasoning) 0.26 ± 0.05 0.68 ± 0.04 0.15 ± 0.02
1.27 ± 0.11
132,071
#55 Polaris Alpha 0.22 ± 0.05 0.71 ± 0.02 0.24 ± 0.03
1.27 ± 0.12
157,197
#56 arcee-ai/Trinity-Large-Preview 0.6 (Arcee-AI API) 0.22 ± 0.04 0.73 ± 0.24 0.42 ± 0.01
1.39 ± 0.21
61,298
#57 minimax/minimax-m2.5, reasoning, Minimax API 0.48 ± 0.10 0.36 ± 0.03 0.16 ± 0.02
1.39 ± 0.23
159,619
#58 tiiuae/Falcon-H1-34B-Instruct (vllm) 0.22 ± 0.04 0.77 ± 0.06 0.42 ± 0.09
1.43 ± 0.10
60,048
#59 zai-org/GLM-4.7-Flash (z.ai API, reasoning, temp=0.6) 0.28 ± 0.01 0.74 ± 0.08 0.28 ± 0.02
1.44 ± 0.09
127,049
#60 Qwen3-235B-A22B-2507-Instruct (Alibaba API) 0.46 ± 0.19 0.56 ± 0.04 0.16 ± 0.01
1.55 ± 0.35
137,855
#61 Qwen3-VL-8B-Instruct (Alibaba API, presence_penalty=2) 0.24 ± 0.03 1.02 ± 0.05 0.32 ± 0.01
1.66 ± 0.11
165,307
#62 moonshotai/Kimi-K2.5 (reasoning, temp=1, Moonshot AI API) 0.42 ± 0.05 0.73 ± 0.04 0.21 ± 0.04
1.67 ± 0.14
132,843
#63 moonshotai/Kimi-K2-Instruct-0905 (Novita API) 0.39 ± 0.10 0.83 ± 0.04 0.26 ± 0.03
1.73 ± 0.16
100,380
#64 GLM-4.6 (Z.ai API) 0.49 ± 0.07 0.71 ± 0.07 0.17 ± 0.03
1.78 ± 0.17
151,775
#65 arcee-ai/Trinity-Large-Preview (Arcee-AI API) 0.23 ± 0.02 1.22 ± 0.59 0.26 ± 0.05
1.81 ± 0.55
80,598
#66 GPT-5 (reasoning: minimal) 0.30 ± 0.05 1.09 ± 0.04 0.28 ± 0.03
1.84 ± 0.05
163,827
#67 aquif-ai/aquif-3.5-Plus-30B-A3B (Q8_0 llama.cpp, without reasoning) 0.58 ± 0.03 0.79 ± 0.23 0.27 ± 0.02
2.08 ± 0.17
120,339
#68 GPT-5 (reasoning: low) 0.25 ± 0.01 1.40 ± 0.13 0.40 ± 0.01
2.09 ± 0.12
165,854
#69 nvidia/NVIDIA-Nemotron-Nano-12B-v2 (vllm, reasoning=false) 0.38 ± 0.06 1.18 ± 0.10 0.45 ± 0.03
2.17 ± 0.22
86,045
#70 Step-3.5-flash (StepFun API, fp8, temp=0.6, reasoning) 0.60 ± 0.05 0.85 ± 0.06 0.27 ± 0.02
2.17 ± 0.06
140,382
#71 GPT-OSS-120B (Vertex AI API) 0.37 ± 0.05 1.36 ± 0.08 0.40 ± 0.01
2.29 ± 0.17
183,215
#72 GPT-4.1 0.35 ± 0.01 1.36 ± 0.06 0.65 ± 0.03
2.39 ± 0.04
85,822
#73 Nemotron-3-Nano-30B-A3B (NVIDIA API, non-reasoning) 0.49 ± 0.05 1.23 ± 0.08 0.36 ± 0.01
2.40 ± 0.15
183,980
#74 mistralai/Ministral-3-3B-Instruct-2512 (Mistral API) 0.38 ± 0.03 1.44 ± 0.01 0.64 ± 0.03
2.52 ± 0.08
123,147
#75 Mistral-Nemo (Mistral API) 0.51 ± 0.07 1.17 ± 0.09 1.15 ± 0.12
2.77 ± 0.24
53,243
#76 GPT-4.1-mini 0.30 ± 0.02 2.13 ± 0.19 0.54 ± 0.05
3.00 ± 0.20
66,098
#77 MiniMaxAI/MiniMax-M2 (Minimax API) 0.46 ± 0.04 1.90 ± 0.05 0.41 ± 0.03
3.02 ± 0.09
239,780
#78 unsloth qwen3.6 27b nvfp4 0.40 ± 0.04 1.42 ± 0.12 1.82 ± 0.06
3.12 ± 0.18
113,394
#79 MiniMaxAI/MiniMax-M2 (Minimax API, recommend params) 0.83 ± 0.15 2.43 ± 0.01 0.48 ± 0.02
4.32 ± 0.30
203,067
#80 GPT-4.1-nano 0.87 ± 0.14 3.74 ± 0.22 0.99 ± 0.02
5.97 ± 0.32
65,110
#81 ai-sage/GigaChat3-10B-A1.8B-bf16 (sglang) 4.24 ± 1.72 1.09 ± 0.18 0.50 ± 0.11
9.81 ± 3.64
158,082
#82 liquid/lfm-2-24b-a2b, Together API 2.50 ± 0.08 5.19 ± 0.31 0.97 ± 0.06
10.68 ± 0.27
120,138
#83 openai/gpt-oss-20b (Vertex API) 3.02 ± 0.14 8.78 ± 0.38 1.46 ± 0.18
15.54 ± 0.17
124,173

Метрики показывают ошибки русского языка, подсчитанные на 1000 токенов ответа:

"Критичные" - грубые нарушения (проблемы в соглавсовании слов, вставки на других языках, наиболее неестественные придуманные слова);

"Обычные" - заметные ошибки (кальки, согласование и т.п.);

"Дополнительные" - малозначимые нарушения, почти не влияющие на читаемость.

Значения нормированы на 1000 токенов o200k_base текста; "±" - стандартная ошибка (SE) по серии прогонов, если запусков было несколько. Чем меньше "Нормировано ошибок", тем лучше.

"Нормировано ошибок" - взвешенная метрика: критичные ошибки умножаются на 2, обычные - на 1, дополнительные - на 0.5; сумма нормируется на 1000 токенов ответа.

Результаты для Gemini 2.5 Flash Lite могут быть завышеными. Для тестирования используется temperature=0, если не указано иное. Recomend params - параметры из карточки модели.

Если хотите, чтобы я добавил ту или иную модель в лидерборд - не стесняйтесь открыть issue/pull request на Github.

Обновлено: 2026-06-23 16:49:52 | Всего моделей: 83 | GitHub | Telegram