Llama 2 Chat 70B

July 18, 2023Last synced Jul 10, 2026, 8:59 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

External Benchmarks

AA-Omniscience Accuracy

How Llama 2 Chat 70B Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 1.9

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

google

mistral

deepseek

stepfun

openai

anthropic

liquidai

meta

cohere

nvidia

azure

kimi

minimax

alibaba

ibm

nous-research

aws

multiversecomputing

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

bytedance_seed

upstage

reka-ai

inception

arcee

tencent

ai2

perplexity

swiss-ai-initiative

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

0.3 / 100

LiveCodeBench

0.1 / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AA-Omniscience Hallucination RatePredicted

97.7 / 100

Aider PolyglotPredicted

32.3 / 100

AIME 2025Predicted

0.0 / 30

AlpacaEval 2.0 LCPredicted

14.0 / 100

AlpacaEval 2.0 RawPredicted

11.5 / 100

ARC-AGI-1Predicted

87.8 / 100

ARC-AGI-1 Cost per TaskPredicted

1.7

ARC-AGI-2Predicted

62.2 / 100

ARC-AGI-2 Cost per TaskPredicted

2.5

BFCL (Berkeley Function Calling)Predicted

25.7

BigCodeBench CompletePredicted

21.8 / 100

BigCodeBench InstructPredicted

17.0 / 100

AA Intelligence Index (Matrix)Predicted

46.9

AA Long Context Reasoning (Matrix)Predicted

78.6

AIME 2024Predicted

24.2

AIME 2025 (Matrix)Predicted

97.5

Arena-Hard AutoPredicted

17.1

BrowseCompPredicted

90.7

BRUMO 2025Predicted

99.9

CMIMC 2025Predicted

96.6

CritPtPredicted

36.4

GPQA Diamond (Matrix)Predicted

57.7

HLE (Matrix)Predicted

45.9

HMMT Feb 2025Predicted

87.1

HMMT Nov 2025Predicted

95.3

HumanEvalPredicted

74.1

IFBench (Matrix)Predicted

46.3

IFEvalPredicted

78.9

IMO 2025Predicted

60.1

LiveCodeBench (Matrix)Predicted

43.8

MATH-500 (Matrix)Predicted

89.4

MathArena Apex 2025Predicted

34.3

MMLU-Pro (Matrix)Predicted

50.8

MMMU-ProPredicted

75.3

MRCR v2Predicted

83.5

OSWorldPredicted

35.7

SimpleQAPredicted

62.8

SMT 2025Predicted

95.6

SWE-bench ProPredicted

25.9

Tau-Bench Telecom (Matrix)Predicted

99.3

Terminal-Bench 2.0Predicted

85.8

Terminal-Bench 1.0Predicted

42.5

USAMO 2025Predicted

17.7

Video-MMUPredicted

83.6

browsecompPredicted

92.4

BullshitBenchPredicted

58.5 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

5.2

Arc Agi 2Predicted

1.5

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

6.5

Chess PuzzlesPredicted

0.5

CyBenchPredicted

0.3

DeepResearchBenchPredicted

0.5

FictionLiveBenchPredicted

0.5

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

0.0

HellaSwagPredicted

0.0

Lech Mazur WritingPredicted

7.4

METR Time HorizonsPredicted

31.6

OTIS Mock AIME 2024–2025Predicted

0.0

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.8

The Agent CompanyPredicted

1.0

TriviaQAPredicted

17.4

WinoGrandePredicted

0.7

FrontierMathPredicted

54.2 / 100

GAIA Level 1Predicted

9.7

GAIA Level 2Predicted

0.7

GAIA Level 3Predicted

0.0

GAIAPredicted

5.7 / 100

IFBenchPredicted

0.3 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

16.7 / 100

LiveBench CodingPredicted

81.2 / 100

LiveBench Data AnalysisPredicted

76.7 / 100

LiveBench LanguagePredicted

86.6 / 100

LiveBench MathPredicted

90.9 / 100

LiveBench OverallPredicted

80.8 / 100

LiveBench ReasoningPredicted

86.4 / 100

LongBench v2 EasyPredicted

30.3

LongBench v2 HardPredicted

23.6

LongBench v2Predicted

22.2 / 100

MathVistaPredicted

43.5 / 100

MedQA (USMLE)Predicted

58.4

MLE-benchPredicted

76.3 / 100

MMMUPredicted

60.2 / 100

MMTU Table UnderstandingPredicted

54.3 / 100

MT-BenchPredicted

7.6 / 10

NoLiMa (NIAH)Predicted

80.7 / 100

OCRBench v2Predicted

52.7 / 100

Open LLM AveragePredicted

12.0 / 100

Open LLM: BBHPredicted

33.4 / 100

Open LLM: GPQAPredicted

24.8 / 100

Open LLM: IFEvalPredicted

45.4 / 100

Open LLM: MATH Level 5Predicted

3.5 / 100

Open LLM: MMLU-PROPredicted

19.0 / 100

Open LLM: MUSRPredicted

35.1 / 100

RE-BenchPredicted

100.0

SciCodePredicted

0.0 / 100

SimpleBenchPredicted

56.0 / 100

simpleqaPredicted

48.9

SWE-bench LitePredicted

13.5 / 100

SWE-bench VerifiedPredicted

60.1 / 100

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

94.3 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

84.1 / 100

Vectara Hallucination RatePredicted

15.9 / 100

WebArenaPredicted

0.0 / 100

WeirdMLPredicted

28.4 / 100

WildBenchPredicted

23.5