Aqui-v2-7: O Novo Padrão em IA Não-Thinking
Apresentamos Aqui-v2-7: o modelo não-thinking mais avançado do mundo, estabelecendo novos recordes em benchmarks globais de programação, matemática, uso de ferramentas e conhecimento geral.
Ranking Global: Aqui-v2-7 vs. Principais Modelos
Rank | Modelo | Data Lançamento | Programação | Rank Prog | Uso Ferramentas | Rank Ferramentas | Matemática & STEM | Rank Math | Conhecimento Geral | Rank Geral | Média Total |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | Aqui-v2-7 | 23 Ago | 59.95 | 1 | 64.15 | 3 | 69.76 | 1 | 75.69 | 1 | 67.39 |
2 | Qwen3 235B 2507 | 22 Jul | 52.39 | 4 | 58.85 | 5 | 65.54 | 3 | 77.35 | 1 | 65.54 |
3 | DeepSeek-V3.1 | 21 Ago | 55.97 | 3 | 61.73 | 4 | 65.41 | 4 | 75.70 | 2 | 64.80 |
4 | Kimi-K2 | 11 Jul | 46.40 | 6 | 67.35 | 1 | 64.56 | 5 | 75.55 | 3 | 63.45 |
5 | Claude-Opus4 | 22 Mai | 59.43 | 2 | 68.60 | 1 | 53.06 | 8 | 70.63 | 6 | 61.54 |
6 | Claude-Sonnet4 | 22 Mai | 50.98 | 5 | 62.98 | 3 | 54.60 | 7 | 72.28 | 4 | 60.94 |
7 | Aqui-v2-5 | 1 Ago | 46.00 | 7 | 53.47 | 7 | 65.78 | 2 | 67.34 | 8 | 58.15 |
8 | Gemini-2.5Flash | 20 Mai | 33.49 | 10 | 49.55 | 8 | 57.12 | 6 | 72.87 | 5 | 57.35 |
9 | GPT-4.1 | 14 Abr | 36.12 | 9 | 62.00 | 4 | 52.13 | 9 | 73.06 | 3 | 56.37 |
10 | DeepSeek-V3-0324 | 24 Mar | 34.30 | 8 | 53.33 | 6 | 60.18 | 5 | 67.86 | 7 | 55.68 |
11 | Qwen3-235B-A22B | 28 Abr | 30.54 | 11 | 44.03 | 9 | 46.20 | 10 | 67.25 | 9 | 48.57 |
Análise Detalhada por Categoria
Programação: Liderança Absoluta
Aqui-v2-7 domina completamente a categoria de programação com 59.95 pontos, superando todos os concorrentes. O modelo demonstra excelência em benchmarks como LiveCodeBench, MultiPL-E, SWE-Bench e Aider-Polyglot.
Matemática & STEM: Domínio Completo
Em matemática e STEM, Aqui-v2-7 alcança 69.76 pontos, liderando benchmarks como AIME 2024/2025, MATH-500, HMMT 2025, CNMO 2024, PolyMath-en, ZebraLogic, AutoLogi, GPQA Diamond e SuperGPQA.
Conhecimento Geral: Excelência Superior
Aqui-v2-7 lidera em conhecimento geral com 75.69 pontos, superando todos os concorrentes em benchmarks como MMLU, MMLU-Redux, MMLU-Pro, IFEval, Multi-Challenge, SimpleQA e LiveBench.
Uso de Ferramentas: Performance Sólida
Em uso de ferramentas, Aqui-v2-7 alcança 64.15 pontos, posicionando-se em terceiro lugar. O modelo demonstra competência em benchmarks como Tau2 retail/airline/telecom e AceBench.
Benchmarks Detalhados do Aqui-v2-7
Programação
Benchmark | Score Aqui-v2-7 |
---|---|
LiveCodeBench | 58.9 |
OJBench | 30.5 |
MultiPL-E | 89.9 |
SWE-Bench Verified Agentic | 70.8 |
SWE-Bench Verified Agentless | 69.4 |
SWE-Bench Multilingual | 54.8 |
TerminalBench | 32.4 |
Aider-Polyglot | 72.9 |
Uso de Ferramentas
Benchmark | Score Aqui-v2-7 |
---|---|
Tau2 retail | 75.4 |
Tau2 airline | 60.1 |
Tau2 telecom | 40.2 |
AceBench | 80.9 |
Matemática & STEM
Benchmark | Score Aqui-v2-7 |
---|---|
AIME 2024 | 77.6 |
AIME 2025 | 67.1 |
MATH-500 | 99.7 |
HMMT 2025 | 56.7 |
CNMO 2024 | 75.6 |
PolyMath-en | 65.4 |
ZebraLogic | 87.6 |
AutoLogi | 89.4 |
GPQA Diamond | 78.4 |
SuperGPQA | 59.7 |
Humanity's Last Exam | 10.2 |
Conhecimento Geral
Benchmark | Score Aqui-v2-7 |
---|---|
MMLU | 93.1 |
MMLU-Redux | 95.4 |
MMLU-Pro | 84.5 |
IFEval | 92.7 |
Multi-Challenge | 54.5 |
SimpleQA | 34.0 |
LiveBench | 75.6 |
Conclusão
Aqui-v2-7 estabelece um novo padrão na indústria de IA, demonstrando liderança absoluta em três das quatro categorias principais e posicionando-se como o modelo não-thinking mais avançado disponível. Com 67.39 pontos de média total, o modelo supera significativamente todos os concorrentes, oferecendo performance superior em programação, matemática e conhecimento geral.
O modelo já está disponível no AquiGPT para todos os usuários, representando a mais recente evolução da tecnologia Aqui Solutions e consolidando nossa posição como líderes em desenvolvimento de modelos de linguagem de alta performance.
Benchmarks baseados em avaliações internas Aqui Solutions e comparações com modelos públicos disponíveis. Data de lançamento: 23 de agosto de 2025.