Aqui-v2-7: Líder Absoluto em Benchmarks Globais

Aqui-v2-7: O Novo Padrão em IA Não-Thinking

Apresentamos Aqui-v2-7: o modelo não-thinking mais avançado do mundo, estabelecendo novos recordes em benchmarks globais de programação, matemática, uso de ferramentas e conhecimento geral.

Ranking Global: Aqui-v2-7 vs. Principais Modelos

Rank	Modelo	Data Lançamento	Programação	Rank Prog	Uso Ferramentas	Rank Ferramentas	Matemática & STEM	Rank Math	Conhecimento Geral	Rank Geral	Média Total
1	Aqui-v2-7	23 Ago	59.95	1	64.15	3	69.76	1	75.69	1	67.39
2	Qwen3 235B 2507	22 Jul	52.39	4	58.85	5	65.54	3	77.35	1	65.54
3	DeepSeek-V3.1	21 Ago	55.97	3	61.73	4	65.41	4	75.70	2	64.80
4	Kimi-K2	11 Jul	46.40	6	67.35	1	64.56	5	75.55	3	63.45
5	Claude-Opus4	22 Mai	59.43	2	68.60	1	53.06	8	70.63	6	61.54
6	Claude-Sonnet4	22 Mai	50.98	5	62.98	3	54.60	7	72.28	4	60.94
7	Aqui-v2-5	1 Ago	46.00	7	53.47	7	65.78	2	67.34	8	58.15
8	Gemini-2.5Flash	20 Mai	33.49	10	49.55	8	57.12	6	72.87	5	57.35
9	GPT-4.1	14 Abr	36.12	9	62.00	4	52.13	9	73.06	3	56.37
10	DeepSeek-V3-0324	24 Mar	34.30	8	53.33	6	60.18	5	67.86	7	55.68
11	Qwen3-235B-A22B	28 Abr	30.54	11	44.03	9	46.20	10	67.25	9	48.57

Análise Detalhada por Categoria

Programação: Liderança Absoluta

Aqui-v2-7 domina completamente a categoria de programação com 59.95 pontos, superando todos os concorrentes. O modelo demonstra excelência em benchmarks como LiveCodeBench, MultiPL-E, SWE-Bench e Aider-Polyglot.

Matemática & STEM: Domínio Completo

Em matemática e STEM, Aqui-v2-7 alcança 69.76 pontos, liderando benchmarks como AIME 2024/2025, MATH-500, HMMT 2025, CNMO 2024, PolyMath-en, ZebraLogic, AutoLogi, GPQA Diamond e SuperGPQA.

Conhecimento Geral: Excelência Superior

Aqui-v2-7 lidera em conhecimento geral com 75.69 pontos, superando todos os concorrentes em benchmarks como MMLU, MMLU-Redux, MMLU-Pro, IFEval, Multi-Challenge, SimpleQA e LiveBench.

Uso de Ferramentas: Performance Sólida

Em uso de ferramentas, Aqui-v2-7 alcança 64.15 pontos, posicionando-se em terceiro lugar. O modelo demonstra competência em benchmarks como Tau2 retail/airline/telecom e AceBench.

Benchmarks Detalhados do Aqui-v2-7

Programação

Benchmark	Score Aqui-v2-7
LiveCodeBench	58.9
OJBench	30.5
MultiPL-E	89.9
SWE-Bench Verified Agentic	70.8
SWE-Bench Verified Agentless	69.4
SWE-Bench Multilingual	54.8
TerminalBench	32.4
Aider-Polyglot	72.9

Uso de Ferramentas

Benchmark	Score Aqui-v2-7
Tau2 retail	75.4
Tau2 airline	60.1
Tau2 telecom	40.2
AceBench	80.9

Matemática & STEM

Benchmark	Score Aqui-v2-7
AIME 2024	77.6
AIME 2025	67.1
MATH-500	99.7
HMMT 2025	56.7
CNMO 2024	75.6
PolyMath-en	65.4
ZebraLogic	87.6
AutoLogi	89.4
GPQA Diamond	78.4
SuperGPQA	59.7
Humanity's Last Exam	10.2

Conhecimento Geral

Benchmark	Score Aqui-v2-7
MMLU	93.1
MMLU-Redux	95.4
MMLU-Pro	84.5
IFEval	92.7
Multi-Challenge	54.5
SimpleQA	34.0
LiveBench	75.6

Conclusão

Aqui-v2-7 estabelece um novo padrão na indústria de IA, demonstrando liderança absoluta em três das quatro categorias principais e posicionando-se como o modelo não-thinking mais avançado disponível. Com 67.39 pontos de média total, o modelo supera significativamente todos os concorrentes, oferecendo performance superior em programação, matemática e conhecimento geral.

O modelo já está disponível no AquiGPT para todos os usuários, representando a mais recente evolução da tecnologia Aqui Solutions e consolidando nossa posição como líderes em desenvolvimento de modelos de linguagem de alta performance.

Benchmarks baseados em avaliações internas Aqui Solutions e comparações com modelos públicos disponíveis. Data de lançamento: 23 de agosto de 2025.