Chatbot Arena ELO

Chatbot Arena ELO measures relative user preference from blind head-to-head votes in LMArena. It is a live human-judgment signal for conversational quality under real prompts.

aggregatechatbot_arena

Strengths

Large-scale blinded pairwise voting reduces single-rater bias; continuous updates surface quality shifts quickly after model releases.

Caveats

Voter population is self-selected and may not match enterprise or domain users; style, verbosity, and safety tone can influence votes independently of factual correctness.

How to interpret scores

Contamination risk: lowFreshness: continuous

Higher is better. Scores are ELO-like ratings (typically 900-1400). Compare relative ranking — absolute values shift as new models enter.

Relevant use cases

Model selectionQuality comparisonHuman preference tracking

Caveat to keep in mind

Voter population is self-selected and may not match enterprise or domain users.

Leaderboard

Last synced: Jul 10, 2026, 8:59 PM

#	Model	Provider	Score	Price/M
1	Llama 2 Chat 13B	Meta	4914.0	$0.00
2	Gemma 3 12B Instruct	Google	4203.0	$0.00
3	Ministral 3 14B	Mistral	3412.0	$0.20
4	OpenAI: GPT-3.5 Turbo 16k	OpenAI	2391.0	$3.25
5	Claude Fable 5 (Adaptive Reasoning, Max Effort, Opus 4.8 Fallback)	Anthropic	1509.0	$20.00
6	Claude Opus 4.7	Anthropic	1503.0	$11.67
7	Claude Opus 4.6 (Adaptive Reasoning, Max Effort)	Anthropic	1502.0	$10.00
8	Claude Opus 4.6 (Non-reasoning, High Effort)	Anthropic	1498.0	$10.00
9	Muse Spark	Meta	1490.0	$0.00
10	GPT-5.6 Sol (xhigh)	OpenAI	1486.0	$11.25
11	Gemini 3 Pro Preview (high)	Google	1486.0	$4.50
12	Gemini 3.1 Pro Preview	Google	1485.0	$4.50
13	GPT-5.4 (Non-reasoning)	OpenAI	1485.0	$5.63
14	GPT-5.2 (medium)	OpenAI	1482.0	$4.81
15	GPT-5.2 (Non-reasoning)	OpenAI	1482.0	$4.81
16	Grok 4.20 0309 (Non-reasoning)	SpaceXAI	1481.0	$3.00
17	GPT-5.5 (high)	OpenAI	1481.0	$11.25
18	Gemini 3.5 Flash (high)	Google	1476.0	$3.38
19	Gemini 3.5 Flash (medium)	Google	1476.0	$3.38
20	Claude Opus 4.8 (Adaptive Reasoning, Max Effort)	Anthropic	1475.0	$10.00
21	Qwen3.7 Max	Alibaba	1475.0	$3.75
22	Grok 4	SpaceXAI	1475.0	$11.00
23	Grok 4.20 0309 (Reasoning)	SpaceXAI	1474.0	$3.00
24	Claude Opus 4.5 (Reasoning)	Anthropic	1474.0	$10.00
25	GPT-5.5 (xhigh)	OpenAI	1474.0	$11.25
26	Gemini 3 Flash Preview (Non-reasoning)	Google	1473.0	$1.13
27	Claude Opus 4.5 (Non-reasoning)	Anthropic	1473.0	$10.00
28	GPT-5.5 Instant (May 2026)	OpenAI	1473.0	$11.25
29	Claude Sonnet 4.6 (Non-reasoning, High Effort)	Anthropic	1472.0	$6.00
30	GLM-5.1 (Reasoning)	Z AI	1472.0	$2.15
31	Grok 4.5 (high)	SpaceXAI	1469.0	$3.00
32	MiMo-V2.5-Pro	Xiaomi	1466.0	$0.54
33	GLM-5.2 (max)	Z AI	1465.0	$2.15
34	GPT-5.4 (xhigh)	OpenAI	1465.0	$5.63
35	Claude Sonnet 5 (Adaptive Reasoning, High Effort)	Anthropic	1463.0	$4.00
36	Kimi K2.6	Kimi	1462.0	$1.71
37	Grok 4.1 Fast (Non-reasoning)	SpaceXAI	1462.0	$0.00
38	Qwen3.6 Max Preview	Alibaba	1460.0	$2.92
39	Qwen3.7 Plus	Alibaba	1460.0	$0.70
40	GPT-5.1 (Non-reasoning)	OpenAI	1457.0	$3.44
41	GLM-5 (Reasoning)	Z AI	1457.0	$1.55
42	DeepSeek V4 Pro (Reasoning, Max Effort)	DeepSeek	1456.0	$0.54
43	Anthropic: Claude Sonnet 4.5	Anthropic	1456.0	$6.00
44	GPT-5.1 (high)	OpenAI	1455.0	$3.44
45	Gemma 4 31B (Reasoning)	Google	1451.0	$0.00
46	Kimi K2.5 (Reasoning)	Kimi	1449.0	$1.20
47	Anthropic: Claude Opus 4.1	Anthropic	1449.0	$30.00
48	MiMo-V2-Pro	Xiaomi	1448.0	$1.50
49	Gemini 2.5 Pro	Google	1446.0	$3.44
50	GPT-4.5 (Preview)	OpenAI	1445.0	$0.00