Llama 2 Chat 13B

July 18, 2023Last synced Jul 10, 2026, 8:59 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

Performance Radar

Llama 2 Chat 13B

Field Average

External Benchmarks

AA-Omniscience Accuracy

How Llama 2 Chat 13B Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 1.9

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

google

mistral

deepseek

stepfun

openai

anthropic

liquidai

meta

cohere

nvidia

azure

kimi

minimax

alibaba

ibm

nous-research

aws

multiversecomputing

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

bytedance_seed

upstage

reka-ai

inception

arcee

tencent

ai2

perplexity

swiss-ai-initiative

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

0.3 / 100

LiveCodeBench

0.1 / 100

Terminal-Bench Hard

— / 100

τ²-Bench

— / 100

AA-Omniscience Hallucination RatePredicted

96.1 / 100

Aider PolyglotPredicted

19.5 / 100

AIME 2025Predicted

0.0 / 30

AlpacaEval 2.0 LCPredicted

24.1 / 100

AlpacaEval 2.0 RawPredicted

16.4 / 100

ARC-AGI-1Predicted

20.5 / 100

ARC-AGI-1 Cost per TaskPredicted

0.1

ARC-AGI-2Predicted

0.2 / 100

ARC-AGI-2 Cost per TaskPredicted

0.1

BFCL (Berkeley Function Calling)Predicted

27.9

BigCodeBench CompletePredicted

38.3 / 100

BigCodeBench InstructPredicted

30.3 / 100

AA Intelligence Index (Matrix)Predicted

57.3

AA Long Context Reasoning (Matrix)Predicted

74.0

AIME 2024Predicted

24.5

AIME 2025 (Matrix)Predicted

85.7

Arena-Hard AutoPredicted

30.4

BrowseCompPredicted

77.1

BRUMO 2025Predicted

97.3

CMIMC 2025Predicted

86.0

GPQA Diamond (Matrix)Predicted

50.7

HLE (Matrix)Predicted

21.3

HMMT Feb 2025Predicted

56.3

HMMT Nov 2025Predicted

92.1

HumanEvalPredicted

72.2

IFBench (Matrix)Predicted

34.3

IFEvalPredicted

77.6

IMO 2025Predicted

25.2

LiveCodeBench (Matrix)Predicted

38.8

MATH-500 (Matrix)Predicted

88.8

MathArena Apex 2025Predicted

4.3

MMLU-Pro (Matrix)Predicted

53.2

MMMU-ProPredicted

77.8

MRCR v2Predicted

78.4

OSWorldPredicted

37.7

SimpleQAPredicted

34.3

SMT 2025Predicted

87.6

SWE-bench ProPredicted

28.0

Tau-Bench Telecom (Matrix)Predicted

97.9

Terminal-Bench 2.0Predicted

47.7

Terminal-Bench 1.0Predicted

21.5

USAMO 2025Predicted

7.9

Video-MMUPredicted

84.9

browsecompPredicted

77.8

BullshitBenchPredicted

26.0 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

3.2

Arc Agi 2Predicted

0.0

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

7.4

Chess PuzzlesPredicted

0.2

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.4

FictionLiveBenchPredicted

0.4

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

4.8

HellaSwagPredicted

0.4

Lech Mazur WritingPredicted

7.0

METR Time HorizonsPredicted

2.0

OTIS Mock AIME 2024–2025Predicted

0.1

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.4

The Agent CompanyPredicted

1.0

TriviaQAPredicted

5.6

WinoGrandePredicted

0.7

FrontierMathPredicted

24.9 / 100

GAIA Level 1Predicted

14.4

GAIA Level 2Predicted

2.2

GAIA Level 3Predicted

0.0

GAIAPredicted

8.6 / 100

IFBenchPredicted

0.3 / 100

LCRPredicted

0.0 / 100

LegalBenchPredicted

50.2 / 100

LiveBench CodingPredicted

72.2 / 100

LiveBench Data AnalysisPredicted

55.8 / 100

LiveBench LanguagePredicted

67.7 / 100

LiveBench MathPredicted

75.3 / 100

LiveBench OverallPredicted

59.7 / 100

LiveBench ReasoningPredicted

59.1 / 100

LongBench v2 EasyPredicted

34.4

LongBench v2 HardPredicted

30.7

LongBench v2Predicted

28.2 / 100

MathVistaPredicted

48.7 / 100

MedQA (USMLE)Predicted

57.5

MLE-benchPredicted

37.4 / 100

MMMUPredicted

58.6 / 100

MMTU Table UnderstandingPredicted

48.9 / 100

MT-BenchPredicted

7.7 / 10

NoLiMa (NIAH)Predicted

87.0 / 100

OCRBench v2Predicted

66.4 / 100

Open LLM AveragePredicted

26.5 / 100

Open LLM: BBHPredicted

52.7 / 100

Open LLM: GPQAPredicted

30.3 / 100

Open LLM: IFEvalPredicted

65.4 / 100

Open LLM: MATH Level 5Predicted

17.7 / 100

Open LLM: MMLU-PROPredicted

36.3 / 100

Open LLM: MUSRPredicted

41.6 / 100

RE-BenchPredicted

82.5

SimpleBenchPredicted

31.6 / 100

simpleqaPredicted

28.0

SWE-bench LitePredicted

10.8 / 100

SWE-bench VerifiedPredicted

40.3 / 100

τ²-BenchPredicted

0.0 / 100

tau-bench RetailPredicted

86.3 / 100

Terminal-Bench HardPredicted

0.0 / 100

Vectara Factual ConsistencyPredicted

72.7 / 100

Vectara Hallucination RatePredicted

27.3 / 100

WeirdMLPredicted

20.2 / 100

WildBenchPredicted

37.2

Chatbot Arena ELOchatbot_arena

4914.0

WebArenawebarena

1.6 / 100