Gemma 3 12B Instruct

March 12, 2025Last synced Jul 10, 2026, 8:59 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

Performance Radar

Gemma 3 12B Instruct

Field Average

External Benchmarks

AA-Omniscience Hallucination Rate

How Gemma 3 12B Instruct Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 1.9

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

google

mistral

deepseek

stepfun

openai

anthropic

liquidai

meta

cohere

nvidia

azure

kimi

minimax

alibaba

ibm

nous-research

aws

multiversecomputing

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

bytedance_seed

upstage

reka-ai

inception

arcee

tencent

ai2

perplexity

swiss-ai-initiative

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

0.3 / 100

LiveCodeBench

0.1 / 100

Terminal-Bench Hard

0.0 / 100

τ²-Bench

0.1 / 100

AA-Omniscience AccuracyPredicted

43.4 / 100

Aider PolyglotPredicted

30.4 / 100

AlpacaEval 2.0 LCPredicted

30.9 / 100

AlpacaEval 2.0 RawPredicted

21.6 / 100

ARC-AGI-1Predicted

15.2 / 100

ARC-AGI-1 Cost per TaskPredicted

0.1

ARC-AGI-2Predicted

34.5 / 100

ARC-AGI-2 Cost per TaskPredicted

0.8

BFCL (Berkeley Function Calling)Predicted

35.2

BigCodeBench CompletePredicted

46.5 / 100

BigCodeBench InstructPredicted

37.3 / 100

AA Intelligence Index (Matrix)Predicted

62.1

AA Long Context Reasoning (Matrix)Predicted

72.6

AIME 2024Predicted

58.0

AIME 2025 (Matrix)Predicted

73.0

Arena-Hard AutoPredicted

37.8

BrowseCompPredicted

69.5

BRUMO 2025Predicted

94.0

CMIMC 2025Predicted

81.2

GPQA Diamond (Matrix)Predicted

62.1

HLE (Matrix)Predicted

44.1

HMMT Feb 2025Predicted

81.4

HMMT Nov 2025Predicted

90.9

HumanEvalPredicted

78.0

IFBench (Matrix)Predicted

37.9

IFEvalPredicted

82.1

IMO 2025Predicted

19.8

LiveCodeBench (Matrix)Predicted

50.8

MATH-500 (Matrix)Predicted

93.0

MathArena Apex 2025Predicted

2.0

MMLU-Pro (Matrix)Predicted

70.6

MMMU-ProPredicted

79.4

MRCR v2Predicted

77.0

OSWorldPredicted

38.4

SimpleQAPredicted

25.5

SMT 2025Predicted

84.8

SWE-bench ProPredicted

31.6

Tau-Bench Telecom (Matrix)Predicted

97.1

Terminal-Bench 2.0Predicted

33.9

Terminal-Bench 1.0Predicted

14.9

USAMO 2025Predicted

8.4

Video-MMUPredicted

85.6

browsecompPredicted

68.6

BullshitBenchPredicted

44.4 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

2.7

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

5.9

Chess PuzzlesPredicted

0.2

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.3

FictionLiveBenchPredicted

0.4

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

5.1

HellaSwagPredicted

0.9

Lech Mazur WritingPredicted

7.3

METR Time HorizonsPredicted

1.3

OTIS Mock AIME 2024–2025Predicted

0.1

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.3

The Agent CompanyPredicted

1.3

TriviaQAPredicted

4.9

WinoGrandePredicted

0.8

FrontierMathPredicted

18.7 / 100

GAIA Level 1Predicted

31.1

GAIA Level 2Predicted

9.5

GAIA Level 3Predicted

0.1

GAIAPredicted

19.5 / 100

LegalBenchPredicted

71.0 / 100

LiveBench CodingPredicted

61.8 / 100

LiveBench Data AnalysisPredicted

50.0 / 100

LiveBench LanguagePredicted

61.1 / 100

LiveBench MathPredicted

51.6 / 100

LiveBench OverallPredicted

53.5 / 100

LiveBench ReasoningPredicted

50.6 / 100

LongBench v2 EasyPredicted

41.3

LongBench v2 HardPredicted

37.0

LongBench v2Predicted

33.7 / 100

MathVistaPredicted

48.5 / 100

MedQA (USMLE)Predicted

66.1

MLE-benchPredicted

29.9 / 100

MMTU Table UnderstandingPredicted

45.2 / 100

MT-BenchPredicted

7.8 / 10

OCRBench v2Predicted

75.2 / 100

Open LLM AveragePredicted

29.4 / 100

Open LLM: BBHPredicted

56.9 / 100

Open LLM: GPQAPredicted

31.7 / 100

Open LLM: IFEvalPredicted

63.6 / 100

Open LLM: MATH Level 5Predicted

22.0 / 100

Open LLM: MMLU-PROPredicted

40.8 / 100

Open LLM: MUSRPredicted

43.7 / 100

RE-BenchPredicted

32.5

SimpleBenchPredicted

31.1 / 100

simpleqaPredicted

27.6

SWE-bench LitePredicted

16.9 / 100

SWE-bench VerifiedPredicted

44.5 / 100

tau-bench RetailPredicted

70.6 / 100

Vectara Factual ConsistencyPredicted

95.6 / 100

Vectara Hallucination RatePredicted

4.4 / 100

WeirdMLPredicted

36.6 / 100

WildBenchPredicted

43.4

Chatbot Arena ELOchatbot_arena

4203.0

NoLiMa (NIAH)nolima

87.4 / 100

WebArenawebarena

26.1 / 100