Aurora Alpha

Last synced Feb 12, 2026, 7:58 AM128K context

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Aurora Alpha Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 2.1

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

mistral

meta

openai

google

anthropic

azure

nvidia

alibaba

aws

ibm

nous-research

kimi

xai

zai

deepcogito

kwaikat

xiaomi

cohere

ai21-labs

inclusionai

minimax

baidu

deepseek

prime-intellect

liquidai

stepfun

bytedance_seed

upstage

reka-ai

inception

tencent

arcee

ai2

swiss-ai-initiative

perplexity

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

— / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AA-Omniscience Hallucination RatePredicted

97.8 / 100

Aider PolyglotPredicted

76.3 / 100

AIMEPredicted

0.0 / 30

AIME 2025Predicted

0.7 / 30

AlpacaEval 2.0 LCPredicted

19.8 / 100

AlpacaEval 2.0 RawPredicted

15.7 / 100

ARC-AGI-1Predicted

88.9 / 100

ARC-AGI-1 Cost per TaskPredicted

0.6

ARC-AGI-2Predicted

70.0 / 100

ARC-AGI-2 Cost per TaskPredicted

1.2

BFCL (Berkeley Function Calling)Predicted

46.7

BigCodeBench CompletePredicted

35.7 / 100

BigCodeBench InstructPredicted

27.9 / 100

AA Intelligence Index (Matrix)Predicted

57.4

AA Long Context Reasoning (Matrix)Predicted

76.9

AIME 2024Predicted

97.0

AIME 2025 (Matrix)Predicted

99.7

Arena-Hard AutoPredicted

66.0

BrowseCompPredicted

82.3

BRUMO 2025Predicted

99.7

CMIMC 2025Predicted

90.1

CritPtPredicted

16.8

GPQA Diamond (Matrix)Predicted

84.9

HLE (Matrix)Predicted

29.3

HMMT Feb 2025Predicted

94.1

HMMT Nov 2025Predicted

94.0

HumanEvalPredicted

92.3

IFBench (Matrix)Predicted

61.4

IFEvalPredicted

89.5

IMO 2025Predicted

51.1

LiveCodeBench (Matrix)Predicted

76.8

MATH-500 (Matrix)Predicted

97.4

MathArena Apex 2025Predicted

11.9

MMLU-Pro (Matrix)Predicted

85.1

MMMU-ProPredicted

78.7

MRCR v2Predicted

81.8

OSWorldPredicted

68.4

SimpleQAPredicted

46.0

SMT 2025Predicted

90.0

SWE-bench ProPredicted

53.7

Tau-Bench Telecom (Matrix)Predicted

98.8

Terminal-Bench 2.0Predicted

69.4

Terminal-Bench 1.0Predicted

45.2

USAMO 2025Predicted

26.8

Video-MMUPredicted

85.4

browsecompPredicted

83.0

BullshitBenchPredicted

31.9 / 100

Aider PolyglotPredicted

1.6

Apex AgentsPredicted

3.7

Arc Agi 2Predicted

0.1

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

3.3

Chess PuzzlesPredicted

0.3

CyBenchPredicted

0.6

DeepResearchBenchPredicted

0.5

FictionLiveBenchPredicted

0.8

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

0.0

HellaSwagPredicted

0.0

Lech Mazur WritingPredicted

8.3

METR Time HorizonsPredicted

29.2

OTIS Mock AIME 2024–2025Predicted

0.5

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.6

The Agent CompanyPredicted

2.2

TriviaQAPredicted

28.2

WinoGrandePredicted

0.8

FrontierMathPredicted

31.2 / 100

GAIA Level 1Predicted

60.3

GAIA Level 2Predicted

28.0

GAIA Level 3Predicted

8.3

GAIAPredicted

42.7 / 100

GPQA DiamondPredicted

0.7 / 100

HLEPredicted

0.1 / 100

IFBenchPredicted

0.5 / 100

LCRPredicted

0.1 / 100

LegalBenchPredicted

58.8 / 100

LiveBench CodingPredicted

77.8 / 100

LiveBench Data AnalysisPredicted

70.0 / 100

LiveBench LanguagePredicted

80.9 / 100

LiveBench MathPredicted

86.3 / 100

LiveBench OverallPredicted

74.7 / 100

LiveBench ReasoningPredicted

79.9 / 100

LiveCodeBenchPredicted

0.5 / 100

LongBench v2 EasyPredicted

48.2

LongBench v2 HardPredicted

38.0

LongBench v2Predicted

38.6 / 100

MATH-500Predicted

0.8 / 100

MathVistaPredicted

54.0 / 100

MedQA (USMLE)Predicted

91.9

MLE-benchPredicted

68.6 / 100

MMLU ProPredicted

0.7 / 100

MMMUPredicted

78.6 / 100

MMTU Table UnderstandingPredicted

62.9 / 100

MT-BenchPredicted

7.8 / 10

NoLiMa (NIAH)Predicted

91.0 / 100

OCRBench v2Predicted

75.5 / 100

RE-BenchPredicted

100.0

SciCodePredicted

0.1 / 100

SimpleBenchPredicted

48.8 / 100

simpleqaPredicted

45.6

SWE-bench LitePredicted

42.8 / 100

SWE-bench VerifiedPredicted

65.2 / 100

τ²-BenchPredicted

0.7 / 100

tau-bench RetailPredicted

91.4 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

85.9 / 100

Vectara Hallucination RatePredicted

14.1 / 100

WebArenaPredicted

0.1 / 100

WeirdMLPredicted

56.5 / 100

WildBenchPredicted

33.9

Open LLM Averageopen_llm_leaderboard

12.1 / 100

Open LLM: BBHopen_llm_leaderboard

33.7 / 100

Open LLM: GPQAopen_llm_leaderboard

26.5 / 100

Open LLM: IFEvalopen_llm_leaderboard

28.0 / 100

Open LLM: MATH Level 5open_llm_leaderboard

5.7 / 100

Open LLM: MMLU-PROopen_llm_leaderboard

30.0 / 100

Open LLM: MUSRopen_llm_leaderboard

36.3 / 100