Gemini 1.0 Ultra

December 6, 2023Last synced Jul 10, 2026, 8:59 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Gemini 1.0 Ultra Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 1.9

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

google

mistral

deepseek

stepfun

openai

anthropic

liquidai

meta

cohere

nvidia

azure

kimi

minimax

alibaba

ibm

nous-research

aws

multiversecomputing

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

bytedance_seed

upstage

reka-ai

inception

arcee

tencent

ai2

perplexity

swiss-ai-initiative

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

— / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AA-Omniscience Hallucination RatePredicted

95.8 / 100

Aider PolyglotPredicted

23.4 / 100

AIMEPredicted

0.0 / 30

AIME 2025Predicted

0.1 / 30

AlpacaEval 2.0 LCPredicted

35.8 / 100

AlpacaEval 2.0 RawPredicted

22.5 / 100

ARC-AGI-1Predicted

14.3 / 100

ARC-AGI-1 Cost per TaskPredicted

0.1

ARC-AGI-2Predicted

0.1 / 100

ARC-AGI-2 Cost per TaskPredicted

0.1

BFCL (Berkeley Function Calling)Predicted

31.4

BigCodeBench CompletePredicted

43.7 / 100

BigCodeBench InstructPredicted

34.9 / 100

AA Intelligence Index (Matrix)Predicted

60.4

AA Long Context Reasoning (Matrix)Predicted

72.9

AIME 2024Predicted

51.1

AIME 2025 (Matrix)Predicted

63.2

Arena-Hard AutoPredicted

41.4

BrowseCompPredicted

72.1

BRUMO 2025Predicted

94.9

CMIMC 2025Predicted

82.2

GPQA Diamond (Matrix)Predicted

55.7

HLE (Matrix)Predicted

18.6

HMMT Feb 2025Predicted

54.4

HMMT Nov 2025Predicted

91.2

HumanEvalPredicted

79.3

IFBench (Matrix)Predicted

35.2

IFEvalPredicted

79.8

IMO 2025Predicted

20.5

LiveCodeBench (Matrix)Predicted

44.1

MATH-500 (Matrix)Predicted

91.0

MathArena Apex 2025Predicted

2.5

MMLU-Pro (Matrix)Predicted

66.7

MMMU-ProPredicted

78.7

MRCR v2Predicted

77.3

OSWorldPredicted

56.5

SimpleQAPredicted

30.7

SMT 2025Predicted

85.2

SWE-bench ProPredicted

43.8

Tau-Bench Telecom (Matrix)Predicted

97.3

Terminal-Bench 2.0Predicted

37.4

Terminal-Bench 1.0Predicted

19.7

USAMO 2025Predicted

7.6

Video-MMUPredicted

85.3

browsecompPredicted

71.8

BullshitBenchPredicted

21.6 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

2.8

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

6.7

Chess PuzzlesPredicted

0.2

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.3

FictionLiveBenchPredicted

0.4

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

4.5

HellaSwagPredicted

1.0

Lech Mazur WritingPredicted

7.1

METR Time HorizonsPredicted

1.3

OTIS Mock AIME 2024–2025Predicted

0.1

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.3

The Agent CompanyPredicted

1.2

TriviaQAPredicted

4.8

WinoGrandePredicted

0.8

FrontierMathPredicted

20.1 / 100

GAIA Level 1Predicted

21.8

GAIA Level 2Predicted

4.9

GAIA Level 3Predicted

0.0

GAIAPredicted

13.3 / 100

GPQA DiamondPredicted

0.4 / 100

HLEPredicted

0.0 / 100

IFBenchPredicted

0.3 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

63.6 / 100

LiveBench CodingPredicted

70.0 / 100

LiveBench Data AnalysisPredicted

51.2 / 100

LiveBench LanguagePredicted

62.6 / 100

LiveBench MathPredicted

70.7 / 100

LiveBench OverallPredicted

54.7 / 100

LiveBench ReasoningPredicted

52.2 / 100

LiveCodeBenchPredicted

0.2 / 100

LongBench v2 EasyPredicted

38.0

LongBench v2 HardPredicted

34.3

LongBench v2Predicted

31.3 / 100

MATH-500Predicted

0.7 / 100

MedQA (USMLE)Predicted

74.3

MLE-benchPredicted

30.9 / 100

MMLU ProPredicted

0.6 / 100

MMTU Table UnderstandingPredicted

50.0 / 100

MT-BenchPredicted

7.8 / 10

NoLiMa (NIAH)Predicted

89.2 / 100

OCRBench v2Predicted

71.7 / 100

Open LLM AveragePredicted

29.4 / 100

Open LLM: BBHPredicted

56.2 / 100

Open LLM: GPQAPredicted

31.4 / 100

Open LLM: IFEvalPredicted

66.0 / 100

Open LLM: MATH Level 5Predicted

21.9 / 100

Open LLM: MMLU-PROPredicted

40.0 / 100

Open LLM: MUSRPredicted

41.5 / 100

RE-BenchPredicted

41.3

SciCodePredicted

0.1 / 100

SimpleBenchPredicted

29.7 / 100

simpleqaPredicted

26.5

SWE-bench LitePredicted

13.2 / 100

SWE-bench VerifiedPredicted

40.8 / 100

τ²-BenchPredicted

0.1 / 100

tau-bench RetailPredicted

66.2 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

91.7 / 100

Vectara Hallucination RatePredicted

8.3 / 100

WebArenaPredicted

1.0 / 100

WeirdMLPredicted

22.5 / 100

WildBenchPredicted

41.4

Training Computeepoch_ai

5.0000000001e+25

Training Cost (USD)epoch_ai

30719419.9

MathVistamathvista

53.0 / 100