LFM2.5-1.2B-Thinking

January 20, 2026Last synced Jul 10, 2026, 8:59 PM

Human Frontier

—

Human-calibrated frontier signal, backed by Arena-style preference evidence and separate from raw AgMoBench benchmark composite scores.

Blended Price

Free/M

Input Price

Free/M

Output Price

Free/M

Speed

—

TTFT

—

Benchmark Scores

Intelligence Index

Performance Radar

LFM2.5-1.2B-Thinking

Field Average

External Benchmarks

AA-Omniscience Hallucination Rate

How LFM2.5-1.2B-Thinking Compares

Axes

X Axis

Y Axis

Bubble Size

Filters

Blended Price (USD)$0.00 – $37.5

AgMoBench Overall≥ 1.9

Providers

ai2ai21-labsalibabaanthropicarceeawsazurebaidu

Show quadrants

google

mistral

deepseek

stepfun

openai

anthropic

liquidai

meta

cohere

nvidia

azure

kimi

minimax

alibaba

ibm

nous-research

aws

multiversecomputing

zai

deepcogito

kwaikat

xai

xiaomi

ai21-labs

inclusionai

baidu

sarvam

bytedance_seed

upstage

reka-ai

inception

arcee

tencent

ai2

perplexity

swiss-ai-initiative

Bubble size = Context Window

8191.00

2000000.00

Compare with other models

GPQA Diamond

0.3 / 100

LiveCodeBench

— / 100

Terminal-Bench Hard

0.0 / 100

τ²-Bench

0.2 / 100

AIME 2025 (Matrix)benchmark_matrix

31.7

GPQA Diamond (Matrix)benchmark_matrix

37.9

HumanEvalbenchmark_matrix

55.0

IFEvalbenchmark_matrix

88.4

LiveCodeBench (Matrix)benchmark_matrix

22.0

MATH-500 (Matrix)benchmark_matrix

88.0

MMLUbenchmark_matrix

52.0

MMLU-Pro (Matrix)benchmark_matrix

49.6

AA-Omniscience AccuracyPredicted

49.3 / 100

Aider PolyglotPredicted

15.2 / 100

AIMEPredicted

0.0 / 30

AIME 2025Predicted

0.0 / 30

AlpacaEval 2.0 LCPredicted

19.7 / 100

AlpacaEval 2.0 RawPredicted

15.8 / 100

ARC-AGI-1Predicted

39.8 / 100

ARC-AGI-1 Cost per TaskPredicted

0.3

ARC-AGI-2Predicted

25.0 / 100

ARC-AGI-2 Cost per TaskPredicted

0.7

BFCL (Berkeley Function Calling)Predicted

22.7

BigCodeBench CompletePredicted

29.1 / 100

BigCodeBench InstructPredicted

22.9 / 100

AA Intelligence Index (Matrix)Predicted

51.6

AA Long Context Reasoning (Matrix)Predicted

75.9

AIME 2024Predicted

28.2

Arena-Hard AutoPredicted

26.7

BrowseCompPredicted

84.8

BRUMO 2025Predicted

99.2

CMIMC 2025Predicted

91.6

HLE (Matrix)Predicted

28.0

HMMT Feb 2025Predicted

62.5

HMMT Nov 2025Predicted

93.6

IFBench (Matrix)Predicted

29.4

IMO 2025Predicted

36.4

MathArena Apex 2025Predicted

11.5

MMMU-ProPredicted

76.0

MRCR v2Predicted

80.5

OSWorldPredicted

75.6

SimpleQAPredicted

42.5

SMT 2025Predicted

91.4

SWE-bench ProPredicted

54.3

Tau-Bench Telecom (Matrix)Predicted

98.7

Terminal-Bench 2.0Predicted

67.2

Terminal-Bench 1.0Predicted

26.3

USAMO 2025Predicted

8.9

Video-MMUPredicted

84.1

browsecompPredicted

86.5

BullshitBenchPredicted

48.0 / 100

Aider PolyglotPredicted

0.0

Apex AgentsPredicted

4.1

Arc Agi 2Predicted

0.1

BIG-Bench HardPredicted

3.0

CAD-EvalPredicted

8.4

Chess PuzzlesPredicted

0.3

CyBenchPredicted

0.1

DeepResearchBenchPredicted

0.4

FictionLiveBenchPredicted

0.4

GeoBenchPredicted

0.0

GSM8K (Epoch)Predicted

6.0

HellaSwagPredicted

0.1

Lech Mazur WritingPredicted

6.9

METR Time HorizonsPredicted

4.9

OTIS Mock AIME 2024–2025Predicted

0.0

PosttrainbenchPredicted

0.0

SimpleQA Verified (Epoch)Predicted

0.5

The Agent CompanyPredicted

0.8

TriviaQAPredicted

7.7

WinoGrandePredicted

0.7

FrontierMathPredicted

36.0 / 100

GAIA Level 1Predicted

6.9

GAIA Level 2Predicted

0.6

GAIA Level 3Predicted

0.0

GAIAPredicted

4.1 / 100

LegalBenchPredicted

27.4 / 100

LiveBench CodingPredicted

65.9 / 100

LiveBench Data AnalysisPredicted

64.6 / 100

LiveBench LanguagePredicted

76.5 / 100

LiveBench MathPredicted

61.0 / 100

LiveBench OverallPredicted

68.8 / 100

LiveBench ReasoningPredicted

71.5 / 100

LiveCodeBenchPredicted

0.1 / 100

LongBench v2 EasyPredicted

28.9

LongBench v2 HardPredicted

25.0

LongBench v2Predicted

23.3 / 100

MATH-500Predicted

0.3 / 100

MathVistaPredicted

18.6 / 100

MedQA (USMLE)Predicted

56.4

MLE-benchPredicted

52.0 / 100

MMLU ProPredicted

0.4 / 100

MMMUPredicted

53.3 / 100

MMTU Table UnderstandingPredicted

47.5 / 100

MT-BenchPredicted

7.7 / 10

NoLiMa (NIAH)Predicted

91.6 / 100

OCRBench v2Predicted

56.2 / 100

Open LLM AveragePredicted

21.0 / 100

Open LLM: BBHPredicted

45.5 / 100

Open LLM: GPQAPredicted

28.1 / 100

Open LLM: IFEvalPredicted

63.0 / 100

Open LLM: MATH Level 5Predicted

10.9 / 100

Open LLM: MMLU-PROPredicted

29.2 / 100

Open LLM: MUSRPredicted

38.0 / 100

RE-BenchPredicted

99.5

SimpleBenchPredicted

36.6 / 100

simpleqaPredicted

32.2

SWE-bench LitePredicted

7.9 / 100

SWE-bench VerifiedPredicted

41.1 / 100

tau-bench RetailPredicted

90.4 / 100

Vectara Factual ConsistencyPredicted

88.8 / 100

Vectara Hallucination RatePredicted

11.2 / 100

WebArenaPredicted

15.6 / 100

WeirdMLPredicted

34.6 / 100

WildBenchPredicted

30.0