Aqui-v2-7: O Novo Padrão em IA Não-Thinking

Apresentamos Aqui-v2-7: o modelo não-thinking mais avançado do mundo, estabelecendo novos recordes em benchmarks globais de programação, matemática, uso de ferramentas e conhecimento geral.

Ranking Global: Aqui-v2-7 vs. Principais Modelos

Rank Modelo Data Lançamento Programação Rank Prog Uso Ferramentas Rank Ferramentas Matemática & STEM Rank Math Conhecimento Geral Rank Geral Média Total
1 Aqui-v2-7 23 Ago 59.95 1 64.15 3 69.76 1 75.69 1 67.39
2 Qwen3 235B 2507 22 Jul 52.39 4 58.85 5 65.54 3 77.35 1 65.54
3 DeepSeek-V3.1 21 Ago 55.97 3 61.73 4 65.41 4 75.70 2 64.80
4 Kimi-K2 11 Jul 46.40 6 67.35 1 64.56 5 75.55 3 63.45
5 Claude-Opus4 22 Mai 59.43 2 68.60 1 53.06 8 70.63 6 61.54
6 Claude-Sonnet4 22 Mai 50.98 5 62.98 3 54.60 7 72.28 4 60.94
7 Aqui-v2-5 1 Ago 46.00 7 53.47 7 65.78 2 67.34 8 58.15
8 Gemini-2.5Flash 20 Mai 33.49 10 49.55 8 57.12 6 72.87 5 57.35
9 GPT-4.1 14 Abr 36.12 9 62.00 4 52.13 9 73.06 3 56.37
10 DeepSeek-V3-0324 24 Mar 34.30 8 53.33 6 60.18 5 67.86 7 55.68
11 Qwen3-235B-A22B 28 Abr 30.54 11 44.03 9 46.20 10 67.25 9 48.57

Análise Detalhada por Categoria

Programação: Liderança Absoluta

Aqui-v2-7 domina completamente a categoria de programação com 59.95 pontos, superando todos os concorrentes. O modelo demonstra excelência em benchmarks como LiveCodeBench, MultiPL-E, SWE-Bench e Aider-Polyglot.

Matemática & STEM: Domínio Completo

Em matemática e STEM, Aqui-v2-7 alcança 69.76 pontos, liderando benchmarks como AIME 2024/2025, MATH-500, HMMT 2025, CNMO 2024, PolyMath-en, ZebraLogic, AutoLogi, GPQA Diamond e SuperGPQA.

Conhecimento Geral: Excelência Superior

Aqui-v2-7 lidera em conhecimento geral com 75.69 pontos, superando todos os concorrentes em benchmarks como MMLU, MMLU-Redux, MMLU-Pro, IFEval, Multi-Challenge, SimpleQA e LiveBench.

Uso de Ferramentas: Performance Sólida

Em uso de ferramentas, Aqui-v2-7 alcança 64.15 pontos, posicionando-se em terceiro lugar. O modelo demonstra competência em benchmarks como Tau2 retail/airline/telecom e AceBench.

Benchmarks Detalhados do Aqui-v2-7

Programação

Benchmark Score Aqui-v2-7
LiveCodeBench58.9
OJBench30.5
MultiPL-E89.9
SWE-Bench Verified Agentic70.8
SWE-Bench Verified Agentless69.4
SWE-Bench Multilingual54.8
TerminalBench32.4
Aider-Polyglot72.9

Uso de Ferramentas

Benchmark Score Aqui-v2-7
Tau2 retail75.4
Tau2 airline60.1
Tau2 telecom40.2
AceBench80.9

Matemática & STEM

Benchmark Score Aqui-v2-7
AIME 202477.6
AIME 202567.1
MATH-50099.7
HMMT 202556.7
CNMO 202475.6
PolyMath-en65.4
ZebraLogic87.6
AutoLogi89.4
GPQA Diamond78.4
SuperGPQA59.7
Humanity's Last Exam10.2

Conhecimento Geral

Benchmark Score Aqui-v2-7
MMLU93.1
MMLU-Redux95.4
MMLU-Pro84.5
IFEval92.7
Multi-Challenge54.5
SimpleQA34.0
LiveBench75.6

Conclusão

Aqui-v2-7 estabelece um novo padrão na indústria de IA, demonstrando liderança absoluta em três das quatro categorias principais e posicionando-se como o modelo não-thinking mais avançado disponível. Com 67.39 pontos de média total, o modelo supera significativamente todos os concorrentes, oferecendo performance superior em programação, matemática e conhecimento geral.

O modelo já está disponível no AquiGPT para todos os usuários, representando a mais recente evolução da tecnologia Aqui Solutions e consolidando nossa posição como líderes em desenvolvimento de modelos de linguagem de alta performance.

Benchmarks baseados em avaliações internas Aqui Solutions e comparações com modelos públicos disponíveis. Data de lançamento: 23 de agosto de 2025.