Qwen: Qwen3 14B

Last synced Jul 10, 2026, 8:59 PM41K context

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

$0.092/M

Input Price

$0.050/M

Output Price

$0.22/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AIME 2024benchmark_matrix

How Qwen: Qwen3 14B Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 1.9

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

google

mistral

deepseek

stepfun

openai

anthropic

liquidai

meta

cohere

nvidia

azure

kimi

minimax

alibaba

ibm

nous-research

aws

multiversecomputing

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

bytedance_seed

upstage

reka-ai

inception

arcee

tencent

ai2

perplexity

swiss-ai-initiative

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

— / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AIME 2025 (Matrix)benchmark_matrix

72.0

Arena-Hard Autobenchmark_matrix

85.5

Codeforces Ratingbenchmark_matrix

1900.0

GPQA Diamond (Matrix)benchmark_matrix

64.0

GSM8Kbenchmark_matrix

92.5

HumanEvalbenchmark_matrix

85.0

LiveCodeBench (Matrix)benchmark_matrix

55.0

MATH-500 (Matrix)benchmark_matrix

95.0

MMLUbenchmark_matrix

81.0

MMLU-Pro (Matrix)benchmark_matrix

61.0

AA-Omniscience AccuracyPredicted

38.6 / 100

AA-Omniscience Hallucination RatePredicted

93.6 / 100

Aider PolyglotPredicted

29.0 / 100

AIMEPredicted

0.6 / 30

AIME 2025Predicted

0.3 / 30

AlpacaEval 2.0 LCPredicted

61.6 / 100

AlpacaEval 2.0 RawPredicted

52.9 / 100

ARC-AGI-1Predicted

2.4 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2Predicted

0.0 / 100

ARC-AGI-2 Cost per TaskPredicted

0.0

BigCodeBench CompletePredicted

61.5 / 100

BigCodeBench InstructPredicted

51.3 / 100

AA Intelligence Index (Matrix)Predicted

69.4

AA Long Context Reasoning (Matrix)Predicted

69.0

BrowseCompPredicted

51.2

BRUMO 2025Predicted

61.9

CMIMC 2025Predicted

60.9

HLE (Matrix)Predicted

15.7

HMMT Feb 2025Predicted

38.0

HMMT Nov 2025Predicted

87.2

IFBench (Matrix)Predicted

32.9

IFEvalPredicted

83.7

IMO 2025Predicted

8.5

MathArena Apex 2025Predicted

0.4

MMMU-ProPredicted

81.4

MRCR v2Predicted

72.9

OSWorldPredicted

28.8

SimpleQAPredicted

18.0

SMT 2025Predicted

72.7

SWE-bench ProPredicted

32.1

Tau-Bench Telecom (Matrix)Predicted

93.6

Terminal-Bench 2.0Predicted

12.0

Terminal-Bench 1.0Predicted

12.4

USAMO 2025Predicted

5.5

Video-MMUPredicted

83.4

browsecompPredicted

46.6

BullshitBenchPredicted

9.7 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

1.9

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

5.6

Chess PuzzlesPredicted

0.1

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.3

FictionLiveBenchPredicted

0.4

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

38.8

HellaSwagPredicted

30.1

Lech Mazur WritingPredicted

7.2

METR Time HorizonsPredicted

0.2

OTIS Mock AIME 2024–2025Predicted

0.2

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.2

The Agent CompanyPredicted

1.5

TriviaQAPredicted

2.4

WinoGrandePredicted

0.9

FrontierMathPredicted

8.7 / 100

GAIA Level 1Predicted

48.8

GAIA Level 2Predicted

30.5

GAIA Level 3Predicted

2.5

GAIAPredicted

33.4 / 100

GPQA DiamondPredicted

0.6 / 100

HLEPredicted

0.0 / 100

IFBenchPredicted

0.4 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

90.2 / 100

LiveBench CodingPredicted

61.5 / 100

LiveBench Data AnalysisPredicted

34.5 / 100

LiveBench LanguagePredicted

42.4 / 100

LiveBench MathPredicted

50.3 / 100

LiveBench OverallPredicted

36.4 / 100

LiveBench ReasoningPredicted

27.8 / 100

LiveCodeBenchPredicted

0.5 / 100

LongBench v2 EasyPredicted

47.5

LongBench v2 HardPredicted

39.4

LongBench v2Predicted

36.2 / 100

MATH-500Predicted

0.9 / 100

MathVistaPredicted

58.0 / 100

MedQA (USMLE)Predicted

81.2

MLE-benchPredicted

12.5 / 100

MMLU ProPredicted

0.7 / 100

MMMUPredicted

68.5 / 100

MMTU Table UnderstandingPredicted

50.9 / 100

MT-BenchPredicted

7.9 / 10

NoLiMa (NIAH)Predicted

94.2 / 100

OCRBench v2Predicted

79.8 / 100

Open LLM AveragePredicted

43.2 / 100

Open LLM: BBHPredicted

69.0 / 100

Open LLM: GPQAPredicted

35.8 / 100

Open LLM: IFEvalPredicted

72.3 / 100

Open LLM: MATH Level 5Predicted

46.1 / 100

Open LLM: MMLU-PROPredicted

55.1 / 100

Open LLM: MUSRPredicted

45.7 / 100

RE-BenchPredicted

0.0

SciCodePredicted

0.3 / 100

SimpleBenchPredicted

24.3 / 100

simpleqaPredicted

18.8

SWE-bench LitePredicted

18.8 / 100

SWE-bench VerifiedPredicted

36.2 / 100

τ²-BenchPredicted

0.1 / 100

tau-bench RetailPredicted

70.9 / 100

Terminal-Bench HardPredicted

0.0 / 100

WebArenaPredicted

19.3 / 100

WeirdMLPredicted

27.7 / 100

WildBenchPredicted

47.6

BFCL (Berkeley Function Calling)bfcl

41.0

Epoch Capabilities Indexepoch_ai

3.1968e+24

HuggingFace Downloads (30d)hf-downloads

4533598.0

HuggingFace Likeshf-downloads

417.0

Vectara Factual Consistencyvectara_hallucination

94.6 / 100

Vectara Hallucination Ratevectara_hallucination

5.4 / 100