AgMoDB
ModelsAgentsEvalsVisualizeIndustry
AgMoDB by @mistakeknot

Benchmark Heatmap

Compare models across all benchmark scores at a glance. Colors are normalized per column (red = low, green = high).

Top
30
Sort by
ModelAgMoBenchAgMo TrustAgMo Pred.ReasoningCodingMathAgenticRobust.AA Intel.AA CodingAA MathMMLU ProGPQAHLELiveCodeSciCodeMATH-500AIMEAIME 25IFBenchLCRTB Hardτ²-BenchGDP-Val AAHMMT Nov 2…IFEvalLiveCodeBe…SimpleQA V…Adversaria…BALROGBIG-Bench …BoolQCAD-EvalChatbot Ar…CyBenchDeepResear…FictionLiv…GeoBenchSWE-Bench …Open LLM: …LongBench …GDPvalSWE-Bench …SEAL Tool …Epoch Capa…HleRE-BenchLiveBench …SimpleQAGSOMETR Time …VPCTWebDev ArenaGAIAMMLULAMBADAtau-bench …TruthfulQAWebArenaAider Poly…tau-bench …MT-BenchChess Puzz…NoLiMa (NI…OTIS Mock …Training C…Parameter …Training C…OpenBookQAOSWorld (E…Open LLM: …Open LLM: …ARC-AGI-2AA-Omnisci…BullshitBe…Open LLM: …SWE-bench …MMMUVideo-MMEBrowseCompArena ELO:…FORTRESSPropensity…MASKPRBench Fi…PRBench Le…MCP AtlasMultiChall…EnigmaEvalIFBench (M…Open LLM: …MMMU-ProOpen LLM: …AA-Omnisci…AIME 2026IDP OlmOCRIDP OmniDocIDP CoreCyberGymOmniDocBen…OCRBench v2MMTU Table…Finance Ag…CharXiv Re…CharXiv Re…HLE (with …MedQA (USM…Video-MME …Video-MME …LiveBench …MLE-benchARC-AGI-1PIQATriviaQAWinoGrandeBFCL (Berk…WeirdMLHuggingFac…HuggingFac…AA-Omnisci…EQ-Bench 3BRUMO 2025WildBenchVectara Ha…GAIA Level 1Aider Poly…Chatbot Ar…Codeforces…CritPtGSM8KHMMT Feb 2…HumanEvalMathVisionMRCR v2OSWorldSWE-bench …Tau-Bench …USAMO 2025Video-MMUAA Intelli…AA Long Co…BigCodeBen…SimpleBenchAIME 2024MathVistaBigCodeBen…AIME 2025 …AIME 2026Arena-Hard…GPQA Diamo…LiveBench …LiveBench …OpenRouter…LiveBench …ARC-AGI-1 …ARC-AGI-2 …AlpacaEval…LongBench v2FrontierMathAlpacaEval…LegalBenchHLE (Matrix)IMO 2025MATH-500 (…MathArena …LiveBench …SciCode (M…OpenRouter…Terminal-B…BigCodeBenchCMIMC 2025MMLU-Pro (…MMMU-ProSMT 2025Terminal-B…GSM8K (Epo…HellaSwagLech Mazur…ScienceQAThe Agent …Video-MME …Apex AgentsArc Agi 2GAIA Level 3GAIA Level 2GdpvalPosttrainb…Arena ELO:…LongBench …SWE-bench …Open LLM A…BIRD-benchCybenchChemBenchOpen Finan…DABStepIDP OverallVectara Fa…Arena Elo …τ²-BenchBrowsecompSimpleqaLCRAIMEArena Elo …Terminal-B…Arena Elo …Arena Elo …IFBenchLiveCodeBe…Arena Elo …GPQA DiamondHLESciCode
Gemini 3.1 Pro Preview92.292.492.297.692.895.698.788.957.255.5——0.90.4—0.6———0.80.70.51.0——89.282.00.8—0.0———1487.0————46.1———32.2—156.80.5—79.972.10.289.8—1446.5—92.6—90.5—————0.6—1.0———————77.132.937.0—80.687.5—85.91448.0—————78.271.419.8——80.5——98.369.885.389.6————59.7——51.496.4——84.0—98.0————72.1——55.3———10.4——1490.02700.017.7——95.069.884.972.054.2———57.0——79.698.0——100.097.0—94.391.085.4369000000000.078.50.51.0——40.0—87.444.4—98.533.576.558.923.068.5——89.580.5————————3.40.8———0.21490.0————————81.689.6—1.085.972.10.7———1277.0—0.8—1443.00.90.40.6
Gemini 3 Pro Preview (high)87.587.687.592.188.572.490.388.348.446.595.70.90.90.40.90.6——1.00.70.70.40.9—93.390.079.70.7—————1486.0———0.0——————153.50.492.973.472.10.254.10.99824.0—91.8—88.5—————0.3—0.9———————54.0—48.0—69.687.5—85.91438.0——————————81.0——91.777.788.881.8—90.2——————96.0——77.464.475.0———72.5———55.9—98.3—13.6——1501.02512.09.1—97.593.0—77.055.043.399.3—87.6———76.497.0——95.0——91.981.884.6141000000000.074.40.530.6——19.0—87.037.5—97.323.474.656.120.056.9—90.089.881.093.4———————3.00.3——0.50.01485.0————————82.886.4—0.985.972.10.7———1289.0—0.70.91439.00.90.40.6
Claude Opus 4.6 (Non-reasoning, High Effort)86.486.986.482.795.892.574.193.746.547.6——0.80.2—0.5———0.40.60.50.81606.0—94.076.00.4—————1498.00.9———51.9———47.1—155.40.2100.0—72.00.369.9—1542.7—90.8—91.9—7.1——7.90.2—0.9———————68.813.587.0—75.676.5—84.01538.013.0—96.353.352.376.8————73.9——96.774.185.981.173.8———60.169.184.753.395.4———63.193.0————65.9——45.1———12.2——1502.02650.012.6—15.995.0—93.072.755.698.2——53.0——67.675.5——100.0—59.791.3——452000000000.0—1.93.617.0—40.027.385.340.0—93.0———17.062.9——82.077.3—39.0——————3.40.7———0.01472.0———70.293.0——94.480.487.8—0.884.072.00.6———1293.0—0.4—1513.00.80.20.5
Claude Sonnet 4.6 (Non-reasoning, High Effort)86.385.886.376.595.287.989.591.644.446.4——0.80.1—0.5———0.40.60.50.81633.0—92.074.0——————1470.0——————————153.0———————1510.6—90.0—89.0————————————72.1——60.412.491.0—79.674.2——1523.0—————69.4————74.5———73.986.981.2————————92.1————86.5————66.1——40.0———10.6———2010.0———93.0—82.072.548.297.0——51.0——————97.0——74.1——2070000000000.0—1.22.7——35.0—82.138.0—96.5———33.059.1——80.074.5—————————————0.21442.0————————80.789.4—0.878.068.00.6———1275.0—0.4—1495.00.80.10.5
GPT-5.2 (xhigh)81.683.081.683.786.797.070.770.651.348.799.00.90.90.40.90.5——1.00.80.70.50.8—95.895.080.00.4—0.0———1435.0—0.51.00.0————23.8—153.80.381.748.958.00.138.30.81641.0—88.0—88.0——0.1——0.5—1.0———————72.9-1.038.0—69.086.7—77.91404.0—34.4————————79.5——98.379.188.077.4————————94.1——42.8—94.5———55.972.2——43.8—98.3—10.8——1440.02800.011.6—99.495.0—70.038.255.698.7—90.570.075.7—45.8100.0——100.0——93.258.350.0165000000000.047.711.439.0——40.3—82.835.2—99.413.576.554.69.054.0—91.386.786.592.0———8.7———3.50.5——0.40.01391.0————————81.589.2—0.877.958.00.7———1232.0—0.80.91407.00.90.40.5
Claude Opus 4.5 (Reasoning)79.479.879.489.192.572.477.296.649.747.891.30.90.90.30.90.5——0.90.60.70.50.9——90.068.00.4—————1474.00.8——0.0——————149.70.197.876.072.00.349.40.44468.0—90.8—88.9—————0.1—0.8————66.3——37.6—90.0—74.480.7—67.81489.09.6—92.5——————————————————————95.9————80.0———77.563.7——40.7———10.9——1468.02070.00.3—92.995.1——66.345.998.2—68.4—75.0—62.090.0——92.8—59.787.0——157000000000.0—1.52.4——21.0—84.637.6—85.0———14.057.8——80.0——39.0——————3.10.1——0.60.0——————————89.1—0.967.872.00.7—————0.60.9—0.90.30.5
Claude Sonnet 4.6 (Non-reasoning, Low Effort)79.378.679.374.693.087.989.591.642.643.0——0.80.1—0.4———0.40.60.40.81633.0—92.074.00.3————————————————153.0———68.0———1510.6—90.0—89.0—————0.1—0.9———————60.412.491.0—79.674.2—78.01521.0——————————————————————————————86.5———————40.0———10.6———2010.0———93.0—82.072.548.297.0——51.0——————97.0——74.1——972000000000.0—1.22.7——35.0——38.0—96.5———22.059.1——80.074.5—————————0.6——————————————89.4—0.878.068.00.6—————0.4——0.80.10.4
Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)75.477.675.489.095.187.989.549.851.750.9——0.90.3—0.5———0.60.70.50.81633.0—87.648.50.3————————————————153.0———————1510.6—90.0—89.0—————0.1—0.9———————60.412.430.0—79.674.4——1521.0————————42.3—————————————————————86.5———————40.01533.0——10.6———2010.0——15.988.0—82.042.048.297.0——51.0———43.4——97.0—51.674.1——1040000000000.0—1.22.7——35.0——5.8—96.5———7.059.1——80.074.5—36.4———————0.6——————————————89.4—0.878.015.90.7—————0.6——0.90.30.5
Claude Opus 4.5 (Non-reasoning)74.974.674.980.487.961.677.296.643.142.962.70.90.80.10.70.5——0.60.40.70.40.9——90.068.00.4—0.0———1473.00.8——0.045.9———23.4—149.90.197.876.072.00.349.40.44468.0—90.8—88.9—————0.1—0.8————66.3——37.6—90.0—74.480.7—67.81490.013.6—————————73.9——————————————93.2————80.0———77.563.7——45.7———10.9——1468.02070.00.3—92.995.1——66.345.998.2—68.4—75.0—62.090.0——92.8—59.787.0——161000000000.0—1.52.4——21.0—82.837.6—85.0———29.057.8——80.0——39.0——————3.10.1——0.60.21468.0————82.0——98.9—89.1—0.967.872.00.7—————0.40.71466.00.80.10.5
Claude Opus 4.6 (Adaptive Reasoning, Max Effort)74.676.874.691.497.367.487.757.152.948.1——0.90.4—0.5———0.50.70.50.91606.0—89.747.40.4———0.6—1502.00.9—————————143.70.2100.0——0.369.9—1542.7—90.8—91.9————7.90.2—0.9———————68.813.534.0—75.676.5——1548.013.0————75.8———————————————————————63.193.0————78.0——45.1———12.2——1502.01886.00.3—15.995.0—93.038.235.898.2——53.0——67.675.5——100.0—59.791.3——1020000000000.0—1.93.617.0—10.027.385.37.1—94.4———11.043.2——86.677.3—39.05.00.0————3.40.7———0.0——————————87.8—0.984.022.80.7—————0.5——0.90.40.5
Grok 474.573.274.576.974.385.491.285.841.540.592.70.90.90.20.80.51.00.90.90.50.70.40.7—93.391.082.00.5—0.0———1476.00.40.51.00.0——————147.4——39.748.0—0.7———94.0————59.6——0.3—0.85.0000000000001e+263000000000000.0387842678.1————65.115.356.0—79.075.0——1209.0————————————96.9————————————92.5——25.6—89.5———63.045.7——41.41496.097.5———79.61465.02650.0——90.095.0——52.046.5—61.987.673.068.0—60.594.0——94.0——91.045.542.0—43.50.30.9——38.0—83.244.411.998.55.258.5——23.1—84.485.381.084.639.0——8.1———2.70.2——0.2—1467.0————43.0——————0.7—55.00.70.9——1247.01209.00.50.8—0.90.20.5
Gemini 3 Flash Preview (Non-reasoning)72.974.172.978.981.956.476.160.435.037.855.70.90.80.10.80.5——0.60.60.50.30.4—93.388.290.80.7—0.0———1473.0———0.0——————150.9——72.460.00.1—0.73053.0—91.8—82.0—————0.4—0.9———————33.611.610.0—75.887.6—75.01437.0—————————————95.875.390.180.5—90.4——————95.8——74.562.784.7———————45.5—100.0—13.5——1473.02100.0——————50.034.6——86.9———61.193.0——90.4——90.484.284.6985000000000.074.80.20.2——30.0—86.933.7——15.673.9—2.051.7—90.688.681.292.9———————3.30.0————1459.0————————82.086.5—0.475.060.00.5———1271.0—0.60.81418.00.80.10.5
GPT-5.2 (medium)72.774.472.777.690.196.667.865.246.644.296.70.90.90.20.90.5——1.00.70.60.40.7—95.895.080.00.3—0.0———1482.0—0.51.00.0——————153.80.381.748.958.00.138.30.61641.0—88.0—88.0——0.1——0.4—0.9———————26.7-1.027.0—65.086.7—77.91472.0————————————————————————————42.8—72.7———55.960.7——43.8—98.3—10.8——1440.02800.011.6—99.495.0—70.038.255.698.7—90.570.075.7—45.8100.0——100.0——93.258.350.0193000000000.047.70.30.8——40.3——35.2—99.413.576.554.616.054.0—91.386.786.592.0———8.7———3.50.3——0.40.2——————————89.2—0.777.958.00.6—————0.70.9—0.90.20.5
GPT-5 (high)71.875.171.880.587.175.841.661.144.636.094.30.90.90.30.80.41.01.00.90.70.80.30.8—89.290.084.50.5—————1434.0—0.5————————150.00.395.760.0——38.30.7——91.0————0.1——0.4—0.9———————9.9—21.0—65.074.4——————51.349.0—63.2———62.7————————80.769.6————96.3——63.139.665.7————60.7——40.61586.091.7—15.1—81.31460.02537.05.7—88.394.0——40.041.897.0——68.075.6—56.794.6——94.6——88.472.470.0—48.00.50.7——25.2—86.035.238.199.41.078.6——35.2—90.087.0—92.041.3——————3.00.1————1375.0———————57.7—84.9—0.854.955.00.81.0——1212.0—0.70.8—0.90.30.4
Kimi K2.5 (Reasoning)71.673.471.684.985.084.266.167.446.839.6——0.90.3—0.5———0.70.70.31.0—89.290.085.0——————1449.0——0.9——2.7————148.20.2—69.145.0—————92.0——————————————63.327.749.711.8-8.152.022.570.884.0—74.91431.0—————————39.8—30.0—95.8————1.0——————94.4——76.0—65.3————45.6406888.037.0——98.3—14.2———2350.0——95.495.084.2—62.0———86.6———46.896.1——96.0——87.684.977.7302000000000.061.40.10.3——28.0——50.2—98.08.877.9—18.043.2—91.387.178.590.6———————2.50.1———0.11415.0——14.6——————85.8—1.074.945.00.7———1247.0—0.7—1437.00.90.30.5
DeepSeek V3.2 Speciale70.971.670.985.989.794.176.9—29.437.996.70.90.90.30.90.4——1.00.60.60.30.0—93.388.088.7—————————————————————————————————————————————————76.0—————————————————————————————————56.4—————46.7————99.2—————2701.0——99.291.5———————————96.0——96.0——85.7———————————30.683.398.09.4—————94.487.5—89.2—————————————————————————0.0——0.6—————0.60.9—0.90.30.4
GPT-5.4 (xhigh)70.070.970.095.183.1——74.856.857.2——0.90.4—0.6———0.70.70.60.9————0.5—————1469.0————59.1——83.043.4—156.30.4—80.3—0.353.9———————————0.4—0.9———————74.05.748.0—————1388.0—————70.6—16.0——81.2——99.281.085.384.466.3———————96.1——88.1—93.7————57.4——50.0———7.0——————————75.057.7——————————————94.282.6327000000000.079.30.61.5————86.0————77.5—37.075.1————————————3.40.7———0.01431.0————————83.593.0—0.9——0.7———1269.0—0.7—1474.00.90.40.6
GPT-5.3 Codex (xhigh)69.571.369.595.088.892.9—62.353.653.1——0.90.4—0.5———0.80.70.50.9——92.085.0—————————————————156.2—79.472.8——54.7———94.0——————————————————9.924.0—56.884.0——1407.0————————————————————————————80.2——————77.9——51.8—————————99.0—93.0——64.756.8——————————94.0——81.087.880.1—62.7—————————96.0—78.2——64.7————————————3.3————0.1————————————0.9——0.7—————0.8——0.90.40.5
GPT-5.1 (high)67.570.367.587.279.085.346.963.547.744.794.00.90.90.30.90.4——0.90.70.80.50.8—91.7—82.00.5—————1455.0——————————149.7——72.0———0.6——90.0———————0.3—0.9———————17.6—25.0—66.085.4——1340.0———48.049.3—63.4———76.0——————————————96.4——78.8—72.8————60.8————93.3—12.1——1464.0————————45.0————75.0—53.2———94.0——88.186.979.3—69.60.71.2——31.0—85.732.0—99.01.072.5——47.6—91.987.585.491.0———————2.80.2————1430.0—————————87.9—0.860.055.00.8———1250.0—0.70.91407.00.90.30.4
Kimi K2.5 (Non-reasoning)67.368.267.373.677.384.266.167.437.325.8——0.80.1—0.4———0.40.60.20.8—89.290.085.0—————————0.9——2.7————148.00.2—69.145.0—————92.0——————————————63.327.749.711.8-8.152.022.570.884.0—74.91442.0—————————39.8—30.0————————————————76.0—65.3————45.6482783.066.0——98.3—14.2———2350.0——95.495.084.2—62.0———86.6———46.896.1——96.0——87.684.977.7558000000000.061.40.10.3——28.0——50.2—98.08.877.9—3.043.2—91.387.178.590.6———————2.50.1———————14.6——————85.8—0.874.945.00.6—————0.4——0.80.10.4
Qwen3.7 Max67.067.467.095.796.6——91.556.650.1——0.90.4—0.5———0.80.70.50.9——————————1475.0———————————————————————————————————————14.171.0—————1541.0——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————0.9——0.7—————0.8——0.90.40.5
Qwen3.5 397B A17B (Reasoning)66.968.566.991.681.996.0—59.245.041.3——0.90.3—0.4———0.80.70.41.0——92.683.6——————1445.0————————————————————88.6——————————————————-29.878.0—76.485.0——1393.0————————76.5————93.3————————————————————————————————2200.0———92.090.3——————————94.0——95.091.3—88.4———————————32.0—98.0———————87.8———————————————1412.0———————————1.0—35.00.7———1244.0—0.8——0.90.30.4
Gemini 2.5 Pro66.868.166.873.372.256.161.856.734.632.087.70.90.80.20.80.41.00.90.90.50.70.30.5—66.790.870.40.6—0.0——1.41446.0—0.30.60.0——63.3——68.8146.70.2—58.352.90.0—0.43505.055.189.8————0.0——0.2—0.8———————4.9—20.0—53.684.0——1204.0————————52.3—————————88.086.266.5————93.1——70.859.637.0————54.0——39.01546.090.0—7.071.783.11437.02001.02.0—82.5——83.1———24.084.870.0——51.692.0——86.7—90.884.068.375.5—51.60.50.8——10.0—84.318.831.697.30.575.7——32.6—58.185.6—84.925.3——8.6—4.2——0.038.550.00.3—1447.0—51.7—————12.7—93.0—0.5—52.90.70.9——1245.01143.00.50.81427.00.80.20.4
Gemini 3 Pro Preview (low)66.666.966.685.390.355.887.7—41.339.486.70.90.90.30.90.5——0.90.50.70.30.7————0.7—0.1———————0.0————17.9——0.4—73.4—0.254.10.99824.0—————————0.3—0.9———————31.1—48.0—69.6—————————70.865.718.2————————————————————77.464.475.0———72.569.9——47.1———13.6——————————————————76.4———————81.884.6139000000000.074.40.50.8——19.0——————74.6—17.0—————————————3.00.3——0.50.1——————————86.4—0.7——0.7—————0.50.9—0.90.30.5
Qwen3.5 397B A17B (Non-reasoning)66.568.166.582.589.496.0—59.240.137.4——0.90.2—0.4———0.50.60.40.8——92.683.6—————————————————————35.0—————88.6——————————————————-29.878.0—76.485.0———————————76.5—————————————————————————————————————2200.0———92.090.3——————————94.0——95.091.3—88.4———————————32.0—98.0———————87.8———————————————————————————0.8—35.00.6—————0.5——0.90.20.4
GPT-5.5 (xhigh)65.866.565.897.395.3——85.060.259.1——0.90.4—0.6———0.80.70.60.9——————————1476.0——————————158.4————0.4——————————————————————85.020.147.0—————1505.0—————75.3———————97.5————————————————95.0————83.9——54.1———9.3——————————————————69.0—————————462000000000.0—0.71.9————86.5——————3.0—————————————3.60.8————1430.0—————————90.7—0.9——0.7———1288.0—0.8—1492.00.90.40.6
Grok 4.1 Fast (Reasoning)65.765.465.771.067.388.093.049.938.630.989.30.90.90.20.80.4——0.90.50.70.20.9—93.391.082.0——————1431.0—————————————33.555.0———3721.0———————————————————42.0-28.719.0—79.0———1234.0—————————————94.2———————————92.1——23.4—————69.6—————97.5—19.2——1483.02650.0———95.0——52.0———87.6———56.0———94.0——91.038.950.0488000000000.040.6————38.0—82.544.4—98.55.254.3—2.0——84.485.381.084.6———————2.6—————1410.0—————————80.8—0.9—55.00.7———1192.0—0.50.8—0.90.20.4
GPT-5.2 (Non-reasoning)64.665.064.664.077.680.967.865.233.634.751.00.80.70.10.70.4——0.50.50.40.30.5—95.895.080.00.5—0.0———1482.0—0.51.00.0——————153.80.381.748.9—0.138.30.61641.0—88.0—88.0——0.1——0.4—0.9———————72.9-1.027.0—65.086.7——1472.0————————————————————————————42.8—94.5———55.960.7——43.8—98.3—10.8——1440.02800.011.6—99.495.0—70.038.255.698.7—90.570.075.7—45.8100.0——100.0——93.258.350.0180000000000.047.711.439.0——40.3——35.2—99.413.576.554.69.054.0—91.386.786.592.0———8.7———3.50.0——0.40.0——————————89.2—0.577.958.00.4—————0.50.7—0.70.10.4
Kimi K2.663.864.563.892.294.3——82.853.947.1——0.90.4—0.5———0.80.70.41.0————0.4—————1462.0——————————151.7——72.2——————————————0.3—1.0————————6.465.0—————1518.0—————————————95.8——————————————79.4——————55.9667285.025.0————10.8——————————————————————————84.375.1577000000000.065.1——————84.7————78.6—26.0———————————————————1424.0—————————89.2—1.0——0.7———1259.0—0.8—1454.00.90.40.5
Gemini 3 Flash Preview (Reasoning)63.664.363.690.594.1—82.6—46.442.697.00.90.90.30.90.5——1.00.80.70.40.8————0.7—0.0———————0.0—————————72.4—0.1—0.73053.0—————————0.4—0.9———————33.6—10.0—75.8————————————————————————————————74.562.784.7———————————13.5——————————————————61.1———————84.284.6944000000000.074.80.20.2—————————73.9—8.0—————————————3.30.0——————————————86.5—0.8——0.7—————0.80.9—0.90.30.5
Low
High(normalized per column)Predicted