Qwen: Qwen3 8B

Last synced May 28, 2026, 9:09 AM32K context

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

$0.14/M

Input Price

$0.050/M

Output Price

$0.40/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AIME 2024benchmark_matrix

How Qwen: Qwen3 8B Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 2.1

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

mistral

meta

openai

google

anthropic

azure

nvidia

alibaba

aws

ibm

nous-research

kimi

xai

zai

deepcogito

kwaikat

xiaomi

cohere

ai21-labs

inclusionai

minimax

baidu

deepseek

prime-intellect

liquidai

stepfun

bytedance_seed

upstage

reka-ai

inception

tencent

arcee

ai2

swiss-ai-initiative

perplexity

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

— / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AIME 2025 (Matrix)benchmark_matrix

67.3

Arena-Hard Autobenchmark_matrix

76.0

Codeforces Ratingbenchmark_matrix

1850.0

GPQA Diamond (Matrix)benchmark_matrix

63.3

GSM8Kbenchmark_matrix

89.8

HumanEvalbenchmark_matrix

82.0

IFBench (Matrix)benchmark_matrix

35.0

IFEvalbenchmark_matrix

80.0

LiveCodeBench (Matrix)benchmark_matrix

48.0

MATH-500 (Matrix)benchmark_matrix

94.0

MMLUbenchmark_matrix

76.9

MMLU-Pro (Matrix)benchmark_matrix

56.7

AA-Omniscience AccuracyPredicted

38.7 / 100

AA-Omniscience Hallucination RatePredicted

94.1 / 100

Aider PolyglotPredicted

22.5 / 100

AIMEPredicted

0.4 / 30

AIME 2025Predicted

0.2 / 30

AlpacaEval 2.0 LCPredicted

50.2 / 100

AlpacaEval 2.0 RawPredicted

39.3 / 100

ARC-AGI-1Predicted

1.7 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2Predicted

0.0 / 100

ARC-AGI-2 Cost per TaskPredicted

0.0

BigCodeBench CompletePredicted

60.8 / 100

BigCodeBench InstructPredicted

50.6 / 100

AA Intelligence Index (Matrix)Predicted

68.9

AA Long Context Reasoning (Matrix)Predicted

68.9

BrowseCompPredicted

51.5

BRUMO 2025Predicted

73.1

CMIMC 2025Predicted

59.4

HLE (Matrix)Predicted

18.4

HMMT Feb 2025Predicted

31.7

HMMT Nov 2025Predicted

87.0

IMO 2025Predicted

7.9

MathArena Apex 2025Predicted

0.4

MMMU-ProPredicted

81.0

MRCR v2Predicted

72.6

OSWorldPredicted

29.8

SimpleQAPredicted

16.6

SMT 2025Predicted

71.5

SWE-bench ProPredicted

32.1

Tau-Bench Telecom (Matrix)Predicted

93.5

Terminal-Bench 2.0Predicted

11.8

Terminal-Bench 1.0Predicted

11.3

USAMO 2025Predicted

4.7

Video-MMUPredicted

80.2

browsecompPredicted

47.2

BullshitBenchPredicted

9.1 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

1.9

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

6.3

Chess PuzzlesPredicted

0.1

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.3

FictionLiveBenchPredicted

0.3

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

40.5

HellaSwagPredicted

43.1

Lech Mazur WritingPredicted

7.0

METR Time HorizonsPredicted

0.1

OTIS Mock AIME 2024–2025Predicted

0.1

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.2

The Agent CompanyPredicted

1.4

TriviaQAPredicted

2.1

WinoGrandePredicted

0.8

FrontierMathPredicted

8.5 / 100

GAIA Level 1Predicted

40.2

GAIA Level 2Predicted

43.6

GAIA Level 3Predicted

0.7

GAIAPredicted

26.5 / 100

GPQA DiamondPredicted

0.5 / 100

HLEPredicted

0.0 / 100

IFBenchPredicted

0.3 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

88.9 / 100

LiveBench CodingPredicted

61.1 / 100

LiveBench Data AnalysisPredicted

33.7 / 100

LiveBench LanguagePredicted

41.4 / 100

LiveBench MathPredicted

49.3 / 100

LiveBench OverallPredicted

35.4 / 100

LiveBench ReasoningPredicted

26.6 / 100

LiveCodeBenchPredicted

0.4 / 100

LongBench v2 EasyPredicted

45.1

LongBench v2 HardPredicted

36.5

LongBench v2Predicted

36.2 / 100

MATH-500Predicted

0.9 / 100

MathVistaPredicted

56.9 / 100

MedQA (USMLE)Predicted

84.6

MLE-benchPredicted

11.5 / 100

MMLU ProPredicted

0.7 / 100

MMMUPredicted

65.5 / 100

MMTU Table UnderstandingPredicted

48.7 / 100

MT-BenchPredicted

7.9 / 10

NoLiMa (NIAH)Predicted

94.3 / 100

OCRBench v2Predicted

79.9 / 100

Open LLM AveragePredicted

45.1 / 100

Open LLM: BBHPredicted

69.8 / 100

Open LLM: GPQAPredicted

36.1 / 100

Open LLM: IFEvalPredicted

75.2 / 100

Open LLM: MATH Level 5Predicted

49.6 / 100

Open LLM: MMLU-PROPredicted

56.2 / 100

Open LLM: MUSRPredicted

45.8 / 100

RE-BenchPredicted

0.0

SciCodePredicted

0.3 / 100

SimpleBenchPredicted

24.4 / 100

simpleqaPredicted

17.1

SWE-bench LitePredicted

15.2 / 100

SWE-bench VerifiedPredicted

32.0 / 100

τ²-BenchPredicted

0.2 / 100

tau-bench RetailPredicted

70.5 / 100

Terminal-Bench HardPredicted

0.0 / 100

WebArenaPredicted

19.4 / 100

WeirdMLPredicted

22.6 / 100

WildBenchPredicted

47.4

BFCL (Berkeley Function Calling)bfcl

42.6

EQ-Bench 3eqbench

1251.0

HuggingFace Downloads (30d)hf-downloads

12823764.0

HuggingFace Likeshf-downloads

1105.0

Vectara Factual Consistencyvectara_hallucination

95.2 / 100

Vectara Hallucination Ratevectara_hallucination

4.8 / 100