Бенчмарк качества русского языка для LLM
| # | Модель | Критичные/1000 | Обычные/1000 | Доп./1000 | Нормировано ошибок | Всего токенов |
|---|---|---|---|---|---|---|
| #1 | Claude Sonnet 4.5 | 0.07 ± 0.01 | 0.18 ± 0.02 | 0.12 ± 0.01 |
0.38 ± 0.04
|
121,783 |
| #2 | GPT-4o | 0.03 ± 0.01 | 0.21 ± 0.05 | 0.34 ± 0.08 |
0.44 ± 0.04
|
55,547 |
| #3 | Gemini 2.5 Flash (GA) | 0.08 ± 0.02 | 0.21 ± 0.03 | 0.24 ± 0.01 |
0.48 ± 0.03
|
151,942 |
| #4 | Vikhrmodels/Vistral-24B-Instruct (SGLang) | 0.08 ± 0.02 | 0.31 ± 0.04 | 0.12 ± 0.03 |
0.53 ± 0.02
|
85,900 |
| #5 | Gemma-3-27b-it (SGLang) | 0.08 ± 0.02 | 0.28 ± 0.02 | 0.31 ± 0.05 |
0.59 ± 0.06
|
101,336 |
| #6 | Mistral-Small-3.2-24B-Instruct-2506 (vllm) | 0.10 ± 0.03 | 0.41 ± 0.02 | 0.17 ± 0.02 |
0.69 ± 0.05
|
74,469 |
| #7 | DeepSeek V3 (Novita API) | 0.15 | 0.34 ± 0.03 | 0.12 ± 0.02 |
0.70 ± 0.02
|
75,606 |
| #8 | RefalMachine/RuadaptQwen3-32B-Instruct (SGLang) | 0.09 ± 0.02 | 0.39 ± 0.05 | 0.26 ± 0.06 |
0.71 ± 0.12
|
163,424 |
| #9 | yandex/YandexGPT-5-Lite-8B-instruct (SGLang) | 0.09 | 0.26 ± 0.03 | 0.69 ± 0.04 |
0.78 ± 0.05
|
47,060 |
| #10 | Claude Haiku 4.5 | 0.12 ± 0.02 | 0.47 ± 0.03 | 0.25 ± 0.06 |
0.84 ± 0.02
|
114,212 |
| #11 | GigaChat-20B-A3B-instruct-v1.5 (SGLang) | 0.06 ± 0.01 | 0.40 ± 0.02 | 1.03 ± 0.06 |
1.04 ± 0.01
|
74,836 |
| #12 | Deepseek V3.2-Exp (Deepseek API) | 0.26 ± 0.02 | 0.47 ± 0.04 | 0.24 ± 0.05 |
1.10 ± 0.03
|
135,889 |
| #13 | Qwen3-Next-80B-A3B-Instruct (Alibaba API) | 0.19 ± 0.02 | 0.73 ± 0.03 | 0.23 ± 0.03 |
1.22 ± 0.02
|
175,847 |
| #14 | baidu/ERNIE-4.5-300B-A47B-PT (Novita API) | 0.11 ± 0.01 | 0.74 ± 0.04 | 0.52 ± 0.03 |
1.22 ± 0.05
|
95,684 |
| #15 | t-tech/T-pro-it-2.0 (SGLang, without reasoning) | 0.26 ± 0.05 | 0.68 ± 0.04 | 0.15 ± 0.02 |
1.27 ± 0.11
|
132,071 |
| #16 | tiiuae/Falcon-H1-34B-Instruct (vllm) | 0.22 ± 0.04 | 0.77 ± 0.06 | 0.42 ± 0.09 |
1.43 ± 0.10
|
60,048 |
| #17 | Qwen3-235B-A22B-2507-Instruct (Alibaba API) | 0.46 ± 0.19 | 0.56 ± 0.04 | 0.16 ± 0.01 |
1.55 ± 0.35
|
137,855 |
| #18 | Qwen3-VL-8B-Instruct (Alibaba API, presence_penalty=2) | 0.24 ± 0.03 | 1.02 ± 0.05 | 0.32 ± 0.01 |
1.66 ± 0.11
|
165,307 |
| #19 | moonshotai/Kimi-K2-Instruct-0905 (Novita API) | 0.39 ± 0.10 | 0.83 ± 0.04 | 0.26 ± 0.03 |
1.73 ± 0.16
|
100,380 |
| #20 | GLM-4.6 (Z.ai API) | 0.49 ± 0.07 | 0.71 ± 0.07 | 0.17 ± 0.03 |
1.78 ± 0.17
|
151,775 |
| #21 | GPT-5 (reasoning: minimal) | 0.30 ± 0.05 | 1.09 ± 0.04 | 0.28 ± 0.03 |
1.84 ± 0.05
|
163,827 |
| #22 | GPT-5 (reasoning: low) | 0.25 ± 0.01 | 1.40 ± 0.13 | 0.40 ± 0.01 |
2.09 ± 0.12
|
165,854 |
| #23 | nvidia/NVIDIA-Nemotron-Nano-12B-v2 (vllm, reasoning=false) | 0.38 ± 0.06 | 1.18 ± 0.10 | 0.45 ± 0.03 |
2.17 ± 0.22
|
86,045 |
| #24 | GPT-OSS-120B (Vertex AI API) | 0.37 ± 0.05 | 1.36 ± 0.08 | 0.40 ± 0.01 |
2.29 ± 0.17
|
183,215 |
| #25 | Mistral-Nemo (Mistral API) | 0.51 ± 0.07 | 1.17 ± 0.09 | 1.15 ± 0.12 |
2.77 ± 0.24
|
53,243 |
Метрики показывают ошибки русского языка, подсчитанные на 1000 токенов ответа:
"Критичные" - грубые нарушения (проблемы в соглавсовании слов, вставки на других языках, наиболее неестественные придуманные слова);
"Обычные" - заметные ошибки (кальки, согласование и т.п.);
"Дополнительные" - малозначимые нарушения, почти не влияющие на читаемость.
Значения нормированы на 1000 токенов o200k_base текста; "±" - стандартная ошибка (SE) по серии прогонов, если запусков было несколько. Чем меньше "Нормировано ошибок", тем лучше.
"Нормировано ошибок" - взвешенная метрика: критичные ошибки умножаются на 2, обычные - на 1, дополнительные - на 0.5; сумма нормируется на 1000 токенов ответа.
Результаты для Gemini 2.5 Flash Lite могут быть завышеными.
Если хотите, чтобы я добавил ту или иную модель в лидерборд - не стесняйтесь открыть issue/pull request на Github.
Обновлено: 2025-10-24 14:31:35 | Всего моделей: 25 | GitHub | Telegram