Claude Instant

March 14, 2023Last synced Jul 10, 2026, 8:59 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AlpacaEval 2.0 LC

How Claude Instant Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 1.9

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

google

mistral

deepseek

stepfun

openai

anthropic

liquidai

meta

cohere

nvidia

azure

kimi

minimax

alibaba

ibm

nous-research

aws

multiversecomputing

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

bytedance_seed

upstage

reka-ai

inception

arcee

tencent

ai2

perplexity

swiss-ai-initiative

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

0.3 / 100

LiveCodeBench

0.1 / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AlpacaEval 2.0 Rawalpacaeval

16.1 / 100

AA-Omniscience AccuracyPredicted

50.7 / 100

AA-Omniscience Hallucination RatePredicted

97.1 / 100

Aider PolyglotPredicted

22.4 / 100

AIME 2025Predicted

0.0 / 30

ARC-AGI-1Predicted

66.2 / 100

ARC-AGI-1 Cost per TaskPredicted

0.6

ARC-AGI-2Predicted

17.5 / 100

ARC-AGI-2 Cost per TaskPredicted

0.8

BFCL (Berkeley Function Calling)Predicted

24.4

BigCodeBench CompletePredicted

40.6 / 100

BigCodeBench InstructPredicted

31.4 / 100

AA Intelligence Index (Matrix)Predicted

49.6

AA Long Context Reasoning (Matrix)Predicted

77.1

AIME 2024Predicted

43.3

AIME 2025 (Matrix)Predicted

90.0

Arena-Hard AutoPredicted

40.4

BrowseCompPredicted

87.7

BRUMO 2025Predicted

99.7

CMIMC 2025Predicted

94.4

CritPtPredicted

14.1

GPQA Diamond (Matrix)Predicted

50.6

HLE (Matrix)Predicted

35.6

HMMT Feb 2025Predicted

76.2

HMMT Nov 2025Predicted

94.4

HumanEvalPredicted

72.8

IFBench (Matrix)Predicted

39.7

IFEvalPredicted

76.6

IMO 2025Predicted

46.9

LiveCodeBench (Matrix)Predicted

37.5

MATH-500 (Matrix)Predicted

91.4

MathArena Apex 2025Predicted

19.3

MMLU-Pro (Matrix)Predicted

50.7

MMMU-ProPredicted

75.8

MRCR v2Predicted

81.9

OSWorldPredicted

33.9

SimpleQAPredicted

51.8

SMT 2025Predicted

93.6

SWE-bench ProPredicted

24.0

Tau-Bench Telecom (Matrix)Predicted

99.0

Terminal-Bench 2.0Predicted

76.8

Terminal-Bench 1.0Predicted

33.2

USAMO 2025Predicted

12.3

Video-MMUPredicted

83.9

browsecompPredicted

86.7

BullshitBenchPredicted

46.2 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

4.5

Arc Agi 2Predicted

0.5

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

10.7

Chess PuzzlesPredicted

0.4

CyBenchPredicted

0.2

DeepResearchBenchPredicted

0.4

FictionLiveBenchPredicted

0.4

GeoBenchPredicted

0.0

HellaSwagPredicted

0.0

Lech Mazur WritingPredicted

7.1

METR Time HorizonsPredicted

46.1

OTIS Mock AIME 2024–2025Predicted

0.0

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.5

The Agent CompanyPredicted

0.9

WinoGrandePredicted

0.7

FrontierMathPredicted

43.9 / 100

GAIA Level 1Predicted

8.4

GAIA Level 2Predicted

0.7

GAIA Level 3Predicted

0.0

GAIAPredicted

5.0 / 100

IFBenchPredicted

0.7 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

22.6 / 100

LiveBench CodingPredicted

78.5 / 100

LiveBench Data AnalysisPredicted

70.3 / 100

LiveBench LanguagePredicted

81.6 / 100

LiveBench MathPredicted

87.0 / 100

LiveBench OverallPredicted

74.6 / 100

LiveBench ReasoningPredicted

79.1 / 100

LongBench v2 EasyPredicted

29.8

LongBench v2 HardPredicted

24.6

LongBench v2Predicted

23.0 / 100

MathVistaPredicted

44.2 / 100

MedQA (USMLE)Predicted

57.5

MLE-benchPredicted

63.9 / 100

MMMUPredicted

68.9 / 100

MMTU Table UnderstandingPredicted

50.8 / 100

NoLiMa (NIAH)Predicted

81.8 / 100

OCRBench v2Predicted

55.0 / 100

Open LLM AveragePredicted

16.4 / 100

Open LLM: BBHPredicted

39.9 / 100

Open LLM: GPQAPredicted

26.6 / 100

Open LLM: IFEvalPredicted

54.9 / 100

Open LLM: MATH Level 5Predicted

6.6 / 100

Open LLM: MMLU-PROPredicted

24.3 / 100

Open LLM: MUSRPredicted

36.7 / 100

RE-BenchPredicted

100.0

SciCodePredicted

0.6 / 100

SimpleBenchPredicted

55.9 / 100

simpleqaPredicted

75.8

SWE-bench LitePredicted

10.4 / 100

SWE-bench VerifiedPredicted

50.1 / 100

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

92.4 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

86.8 / 100

Vectara Hallucination RatePredicted

13.2 / 100

WebArenaPredicted

2.6 / 100

WeirdMLPredicted

22.3 / 100

WildBenchPredicted

29.9

Epoch Capabilities Indexepoch_ai

121.1

GSM8K (Epoch)epoch_ai

0.0

TriviaQAepoch_ai

5.0

MT-Benchmtbench

7.9 / 10