Models Agents EvalsIndustry

AgMoDB by @mistakeknot

DeepSeek: DeepSeek V3.2 Exp | AgMoDB

DeepSeek: DeepSeek V3.2 Exp

Last synced Apr 7, 2026, 2:03 PM164K context

Blended Price

$0.30/M

Input Price

$0.27/M

Output Price

$0.41/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How DeepSeek: DeepSeek V3.2 Exp Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $30.0

AgMoBench Overall≥ 3.5

Providers

ai21-labsalibabaanthropicawsazurebaiducoheredeepseek

Show quadrants

anthropic

openai

google

meta

mistral

nvidia

kimi

xai

azure

deepseek

aws

cohere

baidu

ai21-labs

zai

reka-ai

xiaomi

alibaba

minimax

ibm

Bubble size = Context Window

16384.00

2000000.00

Compare with other models

—

Coding Index

—

Math Index

—

MMLU Pro

— / 100

GPQA Diamond

— / 100

HLE

— / 100

LiveCodeBench

— / 100

SciCode

— / 100

MATH-500

— / 100

AIME

— / 30

AIME 2025

— / 30

IFBench

— / 100

LCR

— / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

Predicted

39.2 / 100

AA-Omniscience Hallucination RatePredicted

95.1 / 100

Aider PolyglotPredicted

43.7 / 100

AIMEPredicted

0.2 / 30

AIME 2025Predicted

0.4 / 30

AlpacaEval 2.0 LCPredicted

32.2 / 100

AlpacaEval 2.0 RawPredicted

25.1 / 100

ARC-AGI-1Predicted

6.9 / 100

ARC-AGI-1 Cost per TaskPredicted

0.0

ARC-AGI-2Predicted

0.2 / 100

ARC-AGI-2 Cost per TaskPredicted

0.1

BigCodeBench CompletePredicted

51.2 / 100

BigCodeBench InstructPredicted

41.4 / 100

AA Intelligence Index (Matrix)Predicted

68.1

AA Long Context Reasoning (Matrix)Predicted

72.1

AIME 2024Predicted

82.2

AIME 2025 (Matrix)Predicted

84.6

Arena-Hard AutoPredicted

66.7

BrowseCompPredicted

80.0

BRUMO 2025Predicted

92.1

CMIMC 2025Predicted

79.3

CritPtPredicted

0.6

GPQA Diamond (Matrix)Predicted

71.4

GSM8KPredicted

92.5

HLE (Matrix)Predicted

18.4

HMMT Feb 2025Predicted

65.5

HMMT Nov 2025Predicted

60.6

HumanEvalPredicted

77.9

IFBench (Matrix)Predicted

50.1

IFEvalPredicted

76.1

IMO 2025Predicted

18.6

LiveCodeBench (Matrix)Predicted

46.1

MATH-500 (Matrix)Predicted

76.7

MathArena Apex 2025Predicted

1.4

MMLUPredicted

76.2

MMLU-Pro (Matrix)Predicted

77.0

MMMU-ProPredicted

80.4

MRCR v2Predicted

80.9

OSWorldPredicted

43.1

SimpleQAPredicted

31.3

SMT 2025Predicted

83.9

SWE-bench ProPredicted

40.1

Tau-Bench Telecom (Matrix)Predicted

38.6

Terminal-Bench 2.0Predicted

28.5

Terminal-Bench 1.0Predicted

21.0

USAMO 2025Predicted

9.8

Video-MMUPredicted

86.1

browsecompPredicted

79.2

BullshitBenchPredicted

19.9 / 100

Apex AgentsPredicted

2.4

BALROGPredicted

0.0

BIG-Bench HardPredicted

3.0

BoolQPredicted

0.8

CAD-EvalPredicted

4.9

Chess PuzzlesPredicted

0.2

CyBenchPredicted

0.3

DeepResearchBenchPredicted

50.0

GdpvalPredicted

0.1

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

1.8

GSOPredicted

0.0

HellaSwagPredicted

0.8

HlePredicted

0.1

Lech Mazur WritingPredicted

7.5

METR Time HorizonsPredicted

12.7

OTIS Mock AIME 2024–2025Predicted

0.2

PIQAPredicted

0.8

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.3

TriviaQAPredicted

5.2

VPCTPredicted

0.4

WinoGrandePredicted

0.8

FrontierMathPredicted

16.4 / 100

GAIA Level 1Predicted

49.6

GAIA Level 2Predicted

25.6

GAIA Level 3Predicted

2.4

GAIAPredicted

33.7 / 100

GPQA DiamondPredicted

0.6 / 100

HLEPredicted

0.1 / 100

IFBenchPredicted

0.4 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

80.8 / 100

LiveCodeBenchPredicted

0.4 / 100

LongBench v2 EasyPredicted

51.7

LongBench v2 HardPredicted

45.3

LongBench v2Predicted

41.2 / 100

MATH-500Predicted

0.9 / 100

MathVistaPredicted

56.0 / 100

MLE-benchPredicted

28.2 / 100

MMLU ProPredicted

0.7 / 100

MMMUPredicted

71.4 / 100

MMTU Table UnderstandingPredicted

58.5 / 100

MT-BenchPredicted

7.9 / 10

NoLiMa (NIAH)Predicted

92.6 / 100

OCRBench v2Predicted

83.5 / 100

Open LLM AveragePredicted

29.6 / 100

Open LLM: BBHPredicted

58.1 / 100

Open LLM: GPQAPredicted

32.2 / 100

Open LLM: IFEvalPredicted

74.4 / 100

Open LLM: MATH Level 5Predicted

22.3 / 100

Open LLM: MMLU-PROPredicted

42.1 / 100

Open LLM: MUSRPredicted

42.6 / 100

RE-BenchPredicted

20.3

SciCodePredicted

0.3 / 100

SimpleBenchPredicted

39.6 / 100

simpleqaPredicted

29.5

SWE-bench LitePredicted

24.5 / 100

SWE-bench VerifiedPredicted

50.5 / 100

τ²-BenchPredicted

0.2 / 100

tau-bench RetailPredicted

81.0 / 100

Terminal-Bench HardPredicted

0.0 / 100

WebArenaPredicted

2.6 / 100

WildBenchPredicted

46.8

BFCL (Berkeley Function Calling)bfcl

56.7

Aider Polyglotepoch_ai

0.0

Arc Agi 2epoch_ai

0.0

Epoch Capabilities Indexepoch_ai

145.1

FictionLiveBenchepoch_ai

0.5

The Agent Companyepoch_ai

0.4

WebDev Arenaepoch_ai

2155.0

LiveBench Codinglivebench

73.2 / 100

LiveBench Data Analysislivebench

44.3 / 100

LiveBench Languagelivebench

65.6 / 100

LiveBench Mathlivebench

64.4 / 100

LiveBench Overalllivebench

49.9 / 100

LiveBench Reasoninglivebench

45.5 / 100

Vectara Factual Consistencyvectara_hallucination

94.7 / 100

Vectara Hallucination Ratevectara_hallucination

5.3 / 100

WeirdMLweirdml

39.5 / 100