RuQualBench Leaderboard

#	Модель	Критичные/1000	Обычные/1000	Доп./1000	Нормировано ошибок	Всего токенов
#1	GigaChat-3.1-Ultra	0.02	0.10 ± 0.01	0.12 ± 0.01	0.20 ± 0.02	132,772
#2	Claude Opus 4.5	0.05 ± 0.01	0.12 ± 0.02	0.05 ± 0.02	0.24 ± 0.04	125,802
#3	Deepseek V4 Pro Instant	0.04 ± 0.01	0.12 ± 0.01	0.16 ± 0.04	0.28 ± 0.01	141,593
#4	Mistral Large 3 2512 (Mistral API)	0.04 ± 0.01	0.16 ± 0.02	0.12 ± 0.01	0.30 ± 0.04	136,383
#5	YandexGPT 5.1 Pro	0.02 ± 0.02	0.22 ± 0.04	0.19 ± 0.03	0.34 ± 0.03	55,293
#6	Deepseek V4 Flash Instant	0.06 ± 0.01	0.17 ± 0.01	0.10 ± 0.02	0.34 ± 0.03	125,963
#7	Gemini 3 Pro Preview	0.06 ± 0.01	0.16 ± 0.01	0.17 ± 0.01	0.37 ± 0.03	133,886
#8	Claude Sonnet 4.5	0.07 ± 0.01	0.18 ± 0.02	0.12 ± 0.01	0.38 ± 0.04	121,783
#9	Gemma 4 31B it	0.06 ± 0.01	0.20 ± 0.02	0.21 ± 0.03	0.43 ± 0.02	109,327
#10	GPT-4o	0.03 ± 0.01	0.21 ± 0.05	0.34 ± 0.08	0.44 ± 0.04	55,547
#11	Gemma 4 26B-A4B it	0.05	0.26	0.18 ± 0.02	0.45 ± 0.01	106,364
#12	Gemini 2.5 Flash (GA)	0.08 ± 0.02	0.21 ± 0.03	0.24 ± 0.01	0.48 ± 0.03	151,942
#13	MiniMaxAI/MiniMax-Text-01 (Minimax API)	0.04 ± 0.02	0.21 ± 0.04	0.46 ± 0.02	0.51 ± 0.07	72,187
#14	Vikhrmodels/Vistral-24B-Instruct (SGLang)	0.08 ± 0.02	0.31 ± 0.04	0.12 ± 0.03	0.53 ± 0.02	85,900
#15	qwen/qwen3.5-122b-a10b, non-reasoning, Alibaba API	0.06	0.32 ± 0.01	0.18	0.53 ± 0.01	144,696
#16	Sehyo/Qwen3.5-122B-A10B-NVFP4, non-reasoning	0.07 ± 0.01	0.32 ± 0.01	0.17 ± 0.01	0.56 ± 0.04	152,491
#17	Qwen3.6 Plus Preview (reasoning)	0.13 ± 0.04	0.25 ± 0.02	0.13 ± 0.04	0.58 ± 0.07	128,568
#18	Gemma-3-27b-it (SGLang)	0.08 ± 0.02	0.28 ± 0.02	0.31 ± 0.05	0.59 ± 0.06	101,336
#19	Qwen/Qwen3-235B-A22B-Instruct-2507 (Vertex AI API)	0.09 ± 0.01	0.33 ± 0.06	0.17 ± 0.03	0.60 ± 0.07	133,057
#20	qwen/qwen3.5-35b-a3b, non-reasoning, Alibaba API	0.11 ± 0.03	0.32 ± 0.02	0.20 ± 0.01	0.64 ± 0.05	156,251
#21	cyankiwi/Qwen3.5-122B-A10B-AWQ-4bit, non-reasoning	0.09 ± 0.01	0.35 ± 0.03	0.21 ± 0.03	0.64 ± 0.05	150,727
#22	Mistral-Small-3.2-24B-Instruct-2506 (vllm)	0.10 ± 0.03	0.41 ± 0.02	0.17 ± 0.02	0.69 ± 0.05	74,469
#23	qwen/qwen3.6-27b (non-reasoning), Alibaba API	0.09	0.42 ± 0.04	0.16 ± 0.01	0.69 ± 0.03	137,002
#24	DeepSeek V3 (Novita API)	0.15	0.34 ± 0.03	0.12 ± 0.02	0.70 ± 0.02	75,606
#25	GLM-5.2 (non-reasoning), Z.ai API	0.15 ± 0.01	0.34 ± 0.02	0.12 ± 0.02	0.70 ± 0.01	143,117
#26	RefalMachine/RuadaptQwen3-32B-Instruct (SGLang)	0.09 ± 0.02	0.39 ± 0.05	0.26 ± 0.06	0.71 ± 0.12	163,424
#27	qwen/qwen3.5-122b-a10b, non-reasoning, Alibaba API, temp=0.3	0.11 ± 0.01	0.38 ± 0.02	0.26 ± 0.03	0.72 ± 0.02	144,918
#28	Nex N2 Pro	0.20 ± 0.02	0.28 ± 0.04	0.11 ± 0.03	0.74 ± 0.07	111,476
#29	olka-fi/Qwen3.5-122B-A10B-MXFP4, non-reasoning	0.07 ± 0.01	0.43 ± 0.04	0.36 ± 0.14	0.75 ± 0.06	154,775
#30	GLM-5.1 (non-reasoning), Z.ai API	0.10 ± 0.01	0.46 ± 0.03	0.18 ± 0.01	0.76 ± 0.01	129,848
#31	yandex/YandexGPT-5-Lite-8B-instruct (SGLang)	0.09	0.26 ± 0.03	0.69 ± 0.04	0.78 ± 0.05	47,060
#32	qwen/qwen3.5-397b-a17b, non-reasoning, Alibaba API	0.19 ± 0.02	0.34 ± 0.05	0.13 ± 0.02	0.78 ± 0.08	147,482
#33	qwen/qwen3.5-397b-a17b, non-reasoning, Novita API	0.21 ± 0.03	0.30 ± 0.02	0.16 ± 0.01	0.79 ± 0.06	150,742
#34	unsloth/Qwen3.5-122B-A10B-GGUF:MXFP4_MOE, non-reasoning	0.14 ± 0.05	0.39 ± 0.01	0.23 ± 0.06	0.79 ± 0.12	147,651
#35	Deepseek-V3.2-chat (Deepseek API)	0.18 ± 0.02	0.38 ± 0.03	0.16 ± 0.01	0.82 ± 0.08	126,768
#36	qwen/qwen3.5-27b (non-reasoning), Alibaba API	0.13 ± 0.02	0.47 ± 0.02	0.16 ± 0.01	0.82 ± 0.06	153,141
#37	Claude Haiku 4.5	0.12 ± 0.02	0.47 ± 0.03	0.25 ± 0.06	0.84 ± 0.02	114,212
#38	t-tech/T-pro-it-2.1 (sglang)	0.21 ± 0.14	0.37 ± 0.03	0.13 ± 0.01	0.86 ± 0.25	145,816
#39	Qwen3-VL-32B-Instruct (SGLang)	0.12 ± 0.02	0.52 ± 0.02	0.27 ± 0.03	0.89 ± 0.07	147,626
#40	qwen/qwen3.5-27b, non-reasoning, Alibaba API, temp=0.6	0.12 ± 0.01	0.53 ± 0.11	0.23 ± 0.02	0.89 ± 0.13	156,886
#41	AvitoTech/avibe	0.06	0.65 ± 0.04	0.44 ± 0.05	0.99 ± 0.06	88,360
#42	Pony Alpha (temp=0.6)	0.22 ± 0.04	0.43 ± 0.04	0.24 ± 0.02	0.99 ± 0.07	126,482
#43	GigaChat-20B-A3B-instruct-v1.5 (SGLang)	0.06 ± 0.01	0.40 ± 0.02	1.03 ± 0.06	1.04 ± 0.01	74,836
#44	Deepseek-V3.2-reasoner (Deepseek API)	0.21 ± 0.04	0.57 ± 0.05	0.17 ± 0.03	1.07 ± 0.06	118,309
#45	mistralai/Ministral-3-14B-Instruct-2512 (Mistral API)	0.15 ± 0.01	0.67 ± 0.02	0.22 ± 0.04	1.09 ± 0.03	126,574
#46	Deepseek V3.2-Exp (Deepseek API)	0.26 ± 0.02	0.47 ± 0.04	0.24 ± 0.05	1.10 ± 0.03	135,889
#47	google/gemma-3n-E4B-it (AI Studio)	0.18 ± 0.01	0.50 ± 0.02	0.48 ± 0.07	1.11	99,646
#48	mistralai/Ministral-3-8B-Instruct-2512 (Mistral API)	0.13 ± 0.02	0.79 ± 0.02	0.25 ± 0.01	1.17 ± 0.03	133,214
#49	Qwen3-Next-80B-A3B-Instruct (Alibaba API)	0.19 ± 0.02	0.73 ± 0.03	0.23 ± 0.03	1.22 ± 0.02	175,847
#50	baidu/ERNIE-4.5-300B-A47B-PT (Novita API)	0.11 ± 0.01	0.74 ± 0.04	0.52 ± 0.03	1.22 ± 0.05	95,684
#51	Xiaomi Mimo V2 Flash (Xiaomi API, non-reasoning)	0.28 ± 0.05	0.59 ± 0.01	0.20 ± 0.03	1.24 ± 0.11	140,821
#52	Qwen3-32B (SGLang, without reasoining)	0.13 ± 0.03	0.84 ± 0.03	0.29 ± 0.03	1.25 ± 0.04	99,705
#53	moonshotai/Kimi-K2.5 (non-reasoning, Moonshot AI API)	0.22 ± 0.05	0.71 ± 0.07	0.21 ± 0.03	1.26 ± 0.11	142,514
#54	t-tech/T-pro-it-2.0 (SGLang, without reasoning)	0.26 ± 0.05	0.68 ± 0.04	0.15 ± 0.02	1.27 ± 0.11	132,071
#55	Polaris Alpha	0.22 ± 0.05	0.71 ± 0.02	0.24 ± 0.03	1.27 ± 0.12	157,197
#56	arcee-ai/Trinity-Large-Preview 0.6 (Arcee-AI API)	0.22 ± 0.04	0.73 ± 0.24	0.42 ± 0.01	1.39 ± 0.21	61,298
#57	minimax/minimax-m2.5, reasoning, Minimax API	0.48 ± 0.10	0.36 ± 0.03	0.16 ± 0.02	1.39 ± 0.23	159,619
#58	tiiuae/Falcon-H1-34B-Instruct (vllm)	0.22 ± 0.04	0.77 ± 0.06	0.42 ± 0.09	1.43 ± 0.10	60,048
#59	zai-org/GLM-4.7-Flash (z.ai API, reasoning, temp=0.6)	0.28 ± 0.01	0.74 ± 0.08	0.28 ± 0.02	1.44 ± 0.09	127,049
#60	Qwen3-235B-A22B-2507-Instruct (Alibaba API)	0.46 ± 0.19	0.56 ± 0.04	0.16 ± 0.01	1.55 ± 0.35	137,855
#61	Qwen3-VL-8B-Instruct (Alibaba API, presence_penalty=2)	0.24 ± 0.03	1.02 ± 0.05	0.32 ± 0.01	1.66 ± 0.11	165,307
#62	moonshotai/Kimi-K2.5 (reasoning, temp=1, Moonshot AI API)	0.42 ± 0.05	0.73 ± 0.04	0.21 ± 0.04	1.67 ± 0.14	132,843
#63	moonshotai/Kimi-K2-Instruct-0905 (Novita API)	0.39 ± 0.10	0.83 ± 0.04	0.26 ± 0.03	1.73 ± 0.16	100,380
#64	GLM-4.6 (Z.ai API)	0.49 ± 0.07	0.71 ± 0.07	0.17 ± 0.03	1.78 ± 0.17	151,775
#65	arcee-ai/Trinity-Large-Preview (Arcee-AI API)	0.23 ± 0.02	1.22 ± 0.59	0.26 ± 0.05	1.81 ± 0.55	80,598
#66	GPT-5 (reasoning: minimal)	0.30 ± 0.05	1.09 ± 0.04	0.28 ± 0.03	1.84 ± 0.05	163,827
#67	aquif-ai/aquif-3.5-Plus-30B-A3B (Q8_0 llama.cpp, without reasoning)	0.58 ± 0.03	0.79 ± 0.23	0.27 ± 0.02	2.08 ± 0.17	120,339
#68	GPT-5 (reasoning: low)	0.25 ± 0.01	1.40 ± 0.13	0.40 ± 0.01	2.09 ± 0.12	165,854
#69	nvidia/NVIDIA-Nemotron-Nano-12B-v2 (vllm, reasoning=false)	0.38 ± 0.06	1.18 ± 0.10	0.45 ± 0.03	2.17 ± 0.22	86,045
#70	Step-3.5-flash (StepFun API, fp8, temp=0.6, reasoning)	0.60 ± 0.05	0.85 ± 0.06	0.27 ± 0.02	2.17 ± 0.06	140,382
#71	GPT-OSS-120B (Vertex AI API)	0.37 ± 0.05	1.36 ± 0.08	0.40 ± 0.01	2.29 ± 0.17	183,215
#72	GPT-4.1	0.35 ± 0.01	1.36 ± 0.06	0.65 ± 0.03	2.39 ± 0.04	85,822
#73	Nemotron-3-Nano-30B-A3B (NVIDIA API, non-reasoning)	0.49 ± 0.05	1.23 ± 0.08	0.36 ± 0.01	2.40 ± 0.15	183,980
#74	mistralai/Ministral-3-3B-Instruct-2512 (Mistral API)	0.38 ± 0.03	1.44 ± 0.01	0.64 ± 0.03	2.52 ± 0.08	123,147
#75	Mistral-Nemo (Mistral API)	0.51 ± 0.07	1.17 ± 0.09	1.15 ± 0.12	2.77 ± 0.24	53,243
#76	GPT-4.1-mini	0.30 ± 0.02	2.13 ± 0.19	0.54 ± 0.05	3.00 ± 0.20	66,098
#77	MiniMaxAI/MiniMax-M2 (Minimax API)	0.46 ± 0.04	1.90 ± 0.05	0.41 ± 0.03	3.02 ± 0.09	239,780
#78	unsloth qwen3.6 27b nvfp4	0.40 ± 0.04	1.42 ± 0.12	1.82 ± 0.06	3.12 ± 0.18	113,394
#79	MiniMaxAI/MiniMax-M2 (Minimax API, recommend params)	0.83 ± 0.15	2.43 ± 0.01	0.48 ± 0.02	4.32 ± 0.30	203,067
#80	GPT-4.1-nano	0.87 ± 0.14	3.74 ± 0.22	0.99 ± 0.02	5.97 ± 0.32	65,110
#81	ai-sage/GigaChat3-10B-A1.8B-bf16 (sglang)	4.24 ± 1.72	1.09 ± 0.18	0.50 ± 0.11	9.81 ± 3.64	158,082
#82	liquid/lfm-2-24b-a2b, Together API	2.50 ± 0.08	5.19 ± 0.31	0.97 ± 0.06	10.68 ± 0.27	120,138
#83	openai/gpt-oss-20b (Vertex API)	3.02 ± 0.14	8.78 ± 0.38	1.46 ± 0.18	15.54 ± 0.17	124,173

Метрики показывают ошибки русского языка, подсчитанные на 1000 токенов ответа:

"Критичные" - грубые нарушения (проблемы в соглавсовании слов, вставки на других языках, наиболее неестественные придуманные слова);

"Обычные" - заметные ошибки (кальки, согласование и т.п.);

"Дополнительные" - малозначимые нарушения, почти не влияющие на читаемость.

Значения нормированы на 1000 токенов o200k_base текста; "±" - стандартная ошибка (SE) по серии прогонов, если запусков было несколько. Чем меньше "Нормировано ошибок", тем лучше.

"Нормировано ошибок" - взвешенная метрика: критичные ошибки умножаются на 2, обычные - на 1, дополнительные - на 0.5; сумма нормируется на 1000 токенов ответа.

Результаты для Gemini 2.5 Flash Lite могут быть завышеными. Для тестирования используется temperature=0, если не указано иное. Recomend params - параметры из карточки модели.

Если хотите, чтобы я добавил ту или иную модель в лидерборд - не стесняйтесь открыть issue/pull request на Github.

Обновлено: 2026-06-23 16:49:52 | Всего моделей: 83 | GitHub | Telegram