Aqui-v4.5: Um Novo Paradigma em Modelos de Linguagem Híbridos
Apresentamos o Aqui-v4.5, um modelo híbrido de 1,3 trilhão de parâmetros (34B ativos), que introduz uma arquitetura de raciocínio dinâmico. Cada solicitação do usuário passa por um módulo Judge, responsável por decidir se a tarefa exige raciocínio profundo ou resposta direta. Esse mecanismo permite que o modelo responda rapidamente a tarefas simples e mobilize capacidade de reasoning para problemas complexos — otimizando tanto latência quanto qualidade.
Evolução da Família
- Aqui-v4.5: modelo híbrido (non-thinking/thinking), 1.3T total / 34B ativos, arquitetura Judge-driven.
- Aqui-v4.5 Fast: versão compacta dedicada ao raciocínio, 173B total / 10B ativos, ideal para tarefas que exigem chain-of-thought sem sobrecarga computacional.
- Aqui-v4.5 Heavy: versão multiagente com até 7 agentes colaborativos via AutoSummon. Será lançado em dezembro de 2025 em versão preview, substituindo a base Aqui-v4.0 Thinking pelo novo núcleo Aqui-v4.5 e incorporando um mecanismo de orquestração aprimorado.
- Aqui-v4.5 Image: nosso primeiro modelo de geração de imagens desenvolvido internamente. Combina o Aqui-IMG-Nonthinking para tarefas puramente visuais e o Aqui-v4.5 para raciocínio em prompts complexos — o mesmo Judge decide o caminho. Inclui modo Thinking em desenvolvimento, tornando-o o primeiro modelo de geração de imagens com capacidade de reasoning explícito.
Também estão em desenvolvimento avançado o Aqui-v4.5 Video e Aqui-v4.5 Video Pro, com lançamento previsto nas próximas semanas.
Benchmarks Técnicos: Desempenho Absoluto
Performance Geral (non-thinking/thinking híbrido)
| Benchmark | Aqui-v4.5 | Aqui-v4.0 Thinking | GPT-5.1 high | Kimi-K2-Thinking | Claude Sonnet 4.5 Thinking | DeepSeek-V3.2-Exp | Aqui-v4.0 non-Thinking | GPT-5 non-Thinking |
|---|---|---|---|---|---|---|---|---|
| SWE-Bench Verified | 80.3 | 76.5 | 76.3 | 71.3 | 77.2 | 67.8 | 73.4 | 52.8 |
| AIME 2025 | 100.0 | 100.0 | 94.6 | 94.0 | 87.0 | 89.3 | 79.6 | 61.9 |
| GPQA Diamond | 90.9 | 88.4 | 88.1 | 81.9 | 83.4 | 79.9 | 80.6 | 77.8 |
| HMMT25 | 95.7 | 92.1 | 93.3 | 89.4 | 74.6 | 83.6 | 45.7 | 40.3 |
| BrowseComp | 67.8 | 42.6 | 58.9 | 60.2 | 24.1 | 40.1 | 10.6 | 12.6 |
| SciCode | 50.6 | 49.5 | 43.7 | 44.8 | 44.7 | 37.7 | 40.1 | 39.1 |
| TerminalBench | 54.2 | 42.3 | 47.8 | 47.1 | 50.0 | 37.7 | 40.6 | 28.7 |
| Média | 77.1 | 70.2 | 71.7 | 69.9 | 62.9 | 62.3 | 52.9 | 44.7 |
Hard Math Problems (acertos em problemas avançados)
| Modelo | Accuracy (%) |
|---|---|
| Aqui-v4.5 | 5.62 |
| Aqui-v4.0 Thinking | 4.50 |
| Grok 4 | 2.08 |
| Claude Sonnet 4.5 | 1.56 |
| GPT-5 high | 1.04 |
| GLM-4.6 | 0.52 |
| Gemini 2.5 Pro | 0.52 |
| DeepSeek-V3.2-Exp | 0.52 |
Humanity’s Last Exam + Tools
| Modelo | Accuracy (%) |
|---|---|
| Aqui-v4.5 | 45.1 |
| Kimi K2 Thinking | 44.9 |
| Grok 4 | 38.6 |
| GPT-5 high | 35.2 |
| Claude Sonnet 4.5 | 32.0 |
| Aqui-v4.0 Thinking | 30.2 |
| GLM-4.6 | 30.2 |
| DeepSeek-V3.2-Exp | 29.8 |
Aqui-v4.5 Heavy (Preview — Dezembro 2025)
O Aqui-v4.5 Heavy utiliza o novo núcleo Aqui-v4.5 e eleva o AutoSummon para até 7 agentes, com um novo protocolo de orquestração que reduz conflitos e eleva a precisão coletiva. Sua performance já supera o GPT-5 Pro em tarefas multi-instrumentais.
| Benchmark | Aqui-v4.5 Heavy | Aqui-v4.0 Thinking Heavy | GPT-5 Pro + tools | Grok 4 Heavy + tools | Kimi K2 Thinking Heavy + tools | Aqui-v4.5 + tools | GPT-5 high + tools |
|---|---|---|---|---|---|---|---|
| Humanity's Last Exam | 54.3 | 38.2 | 42.0 | 50.7 | 51.0 | 45.1 | 35.2 |
| HMMT25 | 100.0 | 100.0 | 100.0 | 96.7 | 97.5 | 95.7 | 96.7 |
| GPQA Diamond | 93.2 | 89.6 | 89.4 | 88.4 | 87.0 | 90.9 | 87.3 |
| Média | 82.5 | 75.9 | 77.1 | 78.6 | 78.5 | 77.2 | 73.1 |
Aqui-v4.5 Fast: Eficiência com Raciocínio
Versão compacta e especializada em reasoning, com desempenho notável considerando sua escala reduzida.
| Benchmark | Aqui-v4.5 Fast | GLM-4.6 | GPT-5 mini high | Grok 4 Fast | Claude Haiku 4.5 Thinking | Kimi K2 Instruct 0905 | Aqui-v4.5 |
|---|---|---|---|---|---|---|---|
| SWE-Bench Verified | 73.8 | 68.0 | 71.0 | 56.3 | 73.3 | 69.2 | 80.3 |
| AIME 2025 | 100.0 | 93.9 | 91.1 | 92.0 | 80.7 | 75.2 | 100.0 |
| GPQA Diamond | 80.7 | 81.0 | 82.3 | 85.7 | 73.0 | 74.5 | 90.9 |
| HLE + tools | 34.7 | 30.2 | 24.8 | 25.7 | 18.9 | 21.7 | 45.1 |
| BrowseComp | 47.6 | 45.1 | 40.9 | 44.9 | 40.8 | 14.1 | 67.8 |
| Média | 67.4 | 63.6 | 62.0 | 60.9 | 57.3 | 50.9 | 76.8 |
Aqui-v4.5 Image: Primeiro Modelo de Geração de Imagem com Raciocínio
O Aqui-v4.5 Image é um sistema híbrido: para tarefas de chat, o prompt é roteado para o Aqui-v4.5; para geração de imagens, é direcionado ao Aqui-IMG-Nonthinking. Quando ativado, o modo Thinking utiliza o núcleo Aqui-v4.5 para planejar a composição visual antes da geração — permitindo iteração guiada por reasoning.
ELO Comparativo (preferência humana simulada)
| Modelo | ELO |
|---|---|
| Aqui-v4.5 Image Thinking | 1255 |
| Aqui-v4.5 Image | 1226 |
| Seedream 4.0 | 1209 |
| Gemini 2.5 Flash Image | 1166 |
| GPT-Image-1 high | 1164 |
ImageGenBench — Avaliação por Preferência (nota 0–10)
| Critério | Aqui-v4.5 Image | Seedream 4.0 | Nano Banana | GPT-Image 1 high |
|---|---|---|---|---|
| Text Accuracy | 9.0 | 7.7 | 8.7 | 8.3 |
| Design Sophistication | 8.7 | 7.7 | 7.3 | 8.0 |
| Prompt Adherence | 9.7 | 9.0 | 10.0 | 10.0 |
| Creativity | 9.0 | 7.0 | 8.3 | 7.7 |
| Coloring | 8.7 | 8.0 | 8.3 | 9.3 |
| Readability and Detail | 9.0 | 8.7 | 8.0 | 8.7 |
| Texture | 9.0 | 8.5 | 7.3 | 7.3 |
| Overall | 9.0 | 8.1 | 8.3 | 8.5 |
Avaliações Internas: AQUI e ImageGenBench
Introduzimos dois novos benchmarks proprietários:
- AQUI (Aqui Quality Unitization Index): conjunto de 3.000+ tarefas elaboradas internamente por uma equipe independente de avaliação. O acesso aos dados é restrito até mesmo para pesquisadores, garantindo ausência de contaminação.
- ImageGenBench: benchmark de preferência visual, onde saídas são avaliadas por um modelo classificador (Claude Sonnet 4.5) em 7 dimensões, com notas de 0 a 10.
AQUI — Desempenho por Domínio
| Domínio | Aqui-v4.5 | Claude Sonnet 4.5 | GPT-5 high | Aqui-v4.0 Thinking | Grok 4 | Kimi K2 Thinking | Gemini 2.5 Pro |
|---|---|---|---|---|---|---|---|
| Finance | 68.5 | 66.8 | 66.0 | 62.1 | 61.5 | 54.9 | 59.2 |
| Coding | 65.9 | 67.9 | 64.3 | 60.8 | 43.2 | 49.7 | 47.1 |
| Academia | 87.9 | 82.1 | 84.9 | 85.7 | 86.5 | 82.1 | 81.3 |
| Math | 98.2 | 89.5 | 93.1 | 96.5 | 92.9 | 92.1 | 85.6 |
| Medical | 91.4 | 89.6 | 92.9 | 88.6 | 92.5 | 92.1 | 93.0 |
| ENEM | 90.8 | 89.6 | 87.0 | 87.4 | 88.1 | 85.4 | 86.6 |
| Agentic | 76.5 | 75.4 | 72.6 | 70.5 | 71.4 | 74.9 | 68.2 |
| Reasoning | 14.8 | 13.1 | 10.2 | 8.9 | 15.5 | 7.9 | 5.7 |
| Creative Writing | 81.6 | 79.5 | 76.5 | 80.7 | 73.2 | 79.8 | 76.5 |
| Overall* | 57.6 | 56.1 | 54.1 | 52.8 | 50.5 | 49.2 | 47.3 |
*AQUI Overall é uma média ponderada: Reasoning (30%), Coding (20%), Finance (15%), Agentic (10%), Creative Writing (10%), Academia (5%), Math (5%), Medical (2.5%), ENEM (2.5%).
Demonstração de Codificação
O Aqui-v4.5 demonstra robustez em tarefas de programação, com compreensão de requisitos implícitos, uso apropriado de tipos e testes integrados. Abaixo, exemplo de geração de um solver para equações diferenciais com interface CLI.
“Crie um resolvedor de EDOs de primeira ordem usando o método de Runge-Kutta de 4ª ordem. Aceite equação como string (ex: ‘dy/dx = x + y’), condições iniciais e intervalo. Inclua validação de entrada, suporte a expressões sympy seguras, e um teste de integração com matplotlib para plotar a solução.”
import sys
import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, sympify, lambdify
from sympy.parsing.sympy_parser import parse_expr
from argparse import ArgumentParser
def safe_parse_f(expr_str: str) -> callable:
try:
lhs, rhs = expr_str.replace(' ', '').split('=')
assert lhs in ('dy/dx', 'y'), "Formato esperado: 'dy/dx = f(x, y)'"
x, y = symbols('x y')
f_sym = parse_expr(rhs, local_dict={'x': x, 'y': y}, evaluate=True)
return lambdify((x, y), f_sym, modules=['numpy'])
except Exception as e:
raise ValueError(f"Erro ao parsear equação: {e}")
def runge_kutta_4(f, x0: float, y0: float, x_end: float, h: float) -> tuple:
x_vals = [x0]
y_vals = [y0]
x, y = x0, y0
while x < x_end:
if x + h > x_end:
h = x_end - x
# k1 = h * f(x, y)
k1 = h * f(x, y)
k2 = h * f(x + h/2, y + k1/2)
k3 = h * f(x + h/2, y + k2/2)
k4 = h * f(x + h, y + k3)
y += (k1 + 2*k2 + 2*k3 + k4) / 6
x += h
x_vals.append(x)
y_vals.append(y)
return np.array(x_vals), np.array(y_vals)
def main():
parser = ArgumentParser(description="Solver de EDO: dy/dx = f(x, y)")
parser.add_argument('--eq', required=True, help="Equação, ex: 'dy/dx = x + y'")
parser.add_argument('--x0', type=float, default=0.0, help="Valor inicial de x")
parser.add_argument('--y0', type=float, default=1.0, help="Valor inicial de y")
parser.add_argument('--x_end', type=float, default=2.0, help="Ponto final de integração")
parser.add_argument('--h', type=float, default=0.1, help="Passo de integração")
args = parser.parse_args()
try:
f = safe_parse_f(args.eq)
x, y = runge_kutta_4(f, args.x0, args.y0, args.x_end, args.h)
print(f"Integração concluída: {len(x)} pontos.")
# Plotagem opcional
plt.figure(figsize=(8, 4))
plt.plot(x, y, 'b-o', markersize=3, label=f'y(x), h={args.h}')
plt.xlabel('x')
plt.ylabel('y')
plt.title(f"Runge-Kutta 4ª ordem: {args.eq}")
plt.grid(True)
plt.legend()
plt.tight_layout()
plt.show()
except Exception as e:
sys.exit(f"Erro: {e}")
if __name__ == "__main__":
main()
O código gerado compila e executa corretamente com python solver.py --eq "dy/dx = x + y" --x0 0 --y0 1 --x_end 2 --h 0.1, produzindo uma curva exponencial coerente com a solução analítica y = 2eˣ − x − 1.
Disponibilidade
O Aqui-v4.5, Aqui-v4.5 Fast e Aqui-v4.5 Image já estão disponíveis para todos os usuários do AquiGPT. O Aqui-v4.5 Heavy será lançado em dezembro de 2025 em versão preview. O AQUI e o ImageGenBench serão utilizados internamente para desenvolvimento contínuo, com resultados futuramente publicados em relatórios técnicos trimestrais.