Aqui-v4.5: Um Novo Paradigma em Modelos de Linguagem Híbridos

Apresentamos o Aqui-v4.5, um modelo híbrido de 1,3 trilhão de parâmetros (34B ativos), que introduz uma arquitetura de raciocínio dinâmico. Cada solicitação do usuário passa por um módulo Judge, responsável por decidir se a tarefa exige raciocínio profundo ou resposta direta. Esse mecanismo permite que o modelo responda rapidamente a tarefas simples e mobilize capacidade de reasoning para problemas complexos — otimizando tanto latência quanto qualidade.

Evolução da Família

  • Aqui-v4.5: modelo híbrido (non-thinking/thinking), 1.3T total / 34B ativos, arquitetura Judge-driven.
  • Aqui-v4.5 Fast: versão compacta dedicada ao raciocínio, 173B total / 10B ativos, ideal para tarefas que exigem chain-of-thought sem sobrecarga computacional.
  • Aqui-v4.5 Heavy: versão multiagente com até 7 agentes colaborativos via AutoSummon. Será lançado em dezembro de 2025 em versão preview, substituindo a base Aqui-v4.0 Thinking pelo novo núcleo Aqui-v4.5 e incorporando um mecanismo de orquestração aprimorado.
  • Aqui-v4.5 Image: nosso primeiro modelo de geração de imagens desenvolvido internamente. Combina o Aqui-IMG-Nonthinking para tarefas puramente visuais e o Aqui-v4.5 para raciocínio em prompts complexos — o mesmo Judge decide o caminho. Inclui modo Thinking em desenvolvimento, tornando-o o primeiro modelo de geração de imagens com capacidade de reasoning explícito.

Também estão em desenvolvimento avançado o Aqui-v4.5 Video e Aqui-v4.5 Video Pro, com lançamento previsto nas próximas semanas.

Benchmarks Técnicos: Desempenho Absoluto

Performance Geral (non-thinking/thinking híbrido)

Benchmark Aqui-v4.5 Aqui-v4.0 Thinking GPT-5.1 high Kimi-K2-Thinking Claude Sonnet 4.5 Thinking DeepSeek-V3.2-Exp Aqui-v4.0 non-Thinking GPT-5 non-Thinking
SWE-Bench Verified80.376.576.371.377.267.873.452.8
AIME 2025100.0100.094.694.087.089.379.661.9
GPQA Diamond90.988.488.181.983.479.980.677.8
HMMT2595.792.193.389.474.683.645.740.3
BrowseComp67.842.658.960.224.140.110.612.6
SciCode50.649.543.744.844.737.740.139.1
TerminalBench54.242.347.847.150.037.740.628.7
Média 77.1 70.2 71.7 69.9 62.9 62.3 52.9 44.7

Hard Math Problems (acertos em problemas avançados)

Modelo Accuracy (%)
Aqui-v4.55.62
Aqui-v4.0 Thinking4.50
Grok 42.08
Claude Sonnet 4.51.56
GPT-5 high1.04
GLM-4.60.52
Gemini 2.5 Pro0.52
DeepSeek-V3.2-Exp0.52

Humanity’s Last Exam + Tools

Modelo Accuracy (%)
Aqui-v4.545.1
Kimi K2 Thinking44.9
Grok 438.6
GPT-5 high35.2
Claude Sonnet 4.532.0
Aqui-v4.0 Thinking30.2
GLM-4.630.2
DeepSeek-V3.2-Exp29.8

Aqui-v4.5 Heavy (Preview — Dezembro 2025)

O Aqui-v4.5 Heavy utiliza o novo núcleo Aqui-v4.5 e eleva o AutoSummon para até 7 agentes, com um novo protocolo de orquestração que reduz conflitos e eleva a precisão coletiva. Sua performance já supera o GPT-5 Pro em tarefas multi-instrumentais.

Benchmark Aqui-v4.5 Heavy Aqui-v4.0 Thinking Heavy GPT-5 Pro + tools Grok 4 Heavy + tools Kimi K2 Thinking Heavy + tools Aqui-v4.5 + tools GPT-5 high + tools
Humanity's Last Exam54.338.242.050.751.045.135.2
HMMT25100.0100.0100.096.797.595.796.7
GPQA Diamond93.289.689.488.487.090.987.3
Média 82.5 75.9 77.1 78.6 78.5 77.2 73.1

Aqui-v4.5 Fast: Eficiência com Raciocínio

Versão compacta e especializada em reasoning, com desempenho notável considerando sua escala reduzida.

Benchmark Aqui-v4.5 Fast GLM-4.6 GPT-5 mini high Grok 4 Fast Claude Haiku 4.5 Thinking Kimi K2 Instruct 0905 Aqui-v4.5
SWE-Bench Verified73.868.071.056.373.369.280.3
AIME 2025100.093.991.192.080.775.2100.0
GPQA Diamond80.781.082.385.773.074.590.9
HLE + tools34.730.224.825.718.921.745.1
BrowseComp47.645.140.944.940.814.167.8
Média 67.4 63.6 62.0 60.9 57.3 50.9 76.8

Aqui-v4.5 Image: Primeiro Modelo de Geração de Imagem com Raciocínio

O Aqui-v4.5 Image é um sistema híbrido: para tarefas de chat, o prompt é roteado para o Aqui-v4.5; para geração de imagens, é direcionado ao Aqui-IMG-Nonthinking. Quando ativado, o modo Thinking utiliza o núcleo Aqui-v4.5 para planejar a composição visual antes da geração — permitindo iteração guiada por reasoning.

ELO Comparativo (preferência humana simulada)

Modelo ELO
Aqui-v4.5 Image Thinking1255
Aqui-v4.5 Image1226
Seedream 4.01209
Gemini 2.5 Flash Image1166
GPT-Image-1 high1164

ImageGenBench — Avaliação por Preferência (nota 0–10)

Critério Aqui-v4.5 Image Seedream 4.0 Nano Banana GPT-Image 1 high
Text Accuracy9.07.78.78.3
Design Sophistication8.77.77.38.0
Prompt Adherence9.79.010.010.0
Creativity9.07.08.37.7
Coloring8.78.08.39.3
Readability and Detail9.08.78.08.7
Texture9.08.57.37.3
Overall 9.0 8.1 8.3 8.5

Avaliações Internas: AQUI e ImageGenBench

Introduzimos dois novos benchmarks proprietários:

  • AQUI (Aqui Quality Unitization Index): conjunto de 3.000+ tarefas elaboradas internamente por uma equipe independente de avaliação. O acesso aos dados é restrito até mesmo para pesquisadores, garantindo ausência de contaminação.
  • ImageGenBench: benchmark de preferência visual, onde saídas são avaliadas por um modelo classificador (Claude Sonnet 4.5) em 7 dimensões, com notas de 0 a 10.

AQUI — Desempenho por Domínio

Domínio Aqui-v4.5 Claude Sonnet 4.5 GPT-5 high Aqui-v4.0 Thinking Grok 4 Kimi K2 Thinking Gemini 2.5 Pro
Finance68.566.866.062.161.554.959.2
Coding65.967.964.360.843.249.747.1
Academia87.982.184.985.786.582.181.3
Math98.289.593.196.592.992.185.6
Medical91.489.692.988.692.592.193.0
ENEM90.889.687.087.488.185.486.6
Agentic76.575.472.670.571.474.968.2
Reasoning14.813.110.28.915.57.95.7
Creative Writing81.679.576.580.773.279.876.5
Overall* 57.6 56.1 54.1 52.8 50.5 49.2 47.3

*AQUI Overall é uma média ponderada: Reasoning (30%), Coding (20%), Finance (15%), Agentic (10%), Creative Writing (10%), Academia (5%), Math (5%), Medical (2.5%), ENEM (2.5%).

Demonstração de Codificação

O Aqui-v4.5 demonstra robustez em tarefas de programação, com compreensão de requisitos implícitos, uso apropriado de tipos e testes integrados. Abaixo, exemplo de geração de um solver para equações diferenciais com interface CLI.

Prompt do usuário:
“Crie um resolvedor de EDOs de primeira ordem usando o método de Runge-Kutta de 4ª ordem. Aceite equação como string (ex: ‘dy/dx = x + y’), condições iniciais e intervalo. Inclua validação de entrada, suporte a expressões sympy seguras, e um teste de integração com matplotlib para plotar a solução.”
# Aqui-v4.5 – Resposta gerada em ~6.2s
import sys
import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, sympify, lambdify
from sympy.parsing.sympy_parser import parse_expr
from argparse import ArgumentParser

def safe_parse_f(expr_str: str) -> callable:
    
    try:
        lhs, rhs = expr_str.replace(' ', '').split('=')
        assert lhs in ('dy/dx', 'y'), "Formato esperado: 'dy/dx = f(x, y)'"
        x, y = symbols('x y')
        f_sym = parse_expr(rhs, local_dict={'x': x, 'y': y}, evaluate=True)
        return lambdify((x, y), f_sym, modules=['numpy'])
    except Exception as e:
        raise ValueError(f"Erro ao parsear equação: {e}")

def runge_kutta_4(f, x0: float, y0: float, x_end: float, h: float) -> tuple:
    
    x_vals = [x0]
    y_vals = [y0]
    x, y = x0, y0
    while x < x_end:
        if x + h > x_end:
            h = x_end - x
        # k1 = h * f(x, y)
        k1 = h * f(x, y)
        k2 = h * f(x + h/2, y + k1/2)
        k3 = h * f(x + h/2, y + k2/2)
        k4 = h * f(x + h, y + k3)
        y += (k1 + 2*k2 + 2*k3 + k4) / 6
        x += h
        x_vals.append(x)
        y_vals.append(y)
    return np.array(x_vals), np.array(y_vals)

def main():
    parser = ArgumentParser(description="Solver de EDO: dy/dx = f(x, y)")
    parser.add_argument('--eq', required=True, help="Equação, ex: 'dy/dx = x + y'")
    parser.add_argument('--x0', type=float, default=0.0, help="Valor inicial de x")
    parser.add_argument('--y0', type=float, default=1.0, help="Valor inicial de y")
    parser.add_argument('--x_end', type=float, default=2.0, help="Ponto final de integração")
    parser.add_argument('--h', type=float, default=0.1, help="Passo de integração")
    args = parser.parse_args()

    try:
        f = safe_parse_f(args.eq)
        x, y = runge_kutta_4(f, args.x0, args.y0, args.x_end, args.h)
        print(f"Integração concluída: {len(x)} pontos.")

        # Plotagem opcional
        plt.figure(figsize=(8, 4))
        plt.plot(x, y, 'b-o', markersize=3, label=f'y(x), h={args.h}')
        plt.xlabel('x')
        plt.ylabel('y')
        plt.title(f"Runge-Kutta 4ª ordem: {args.eq}")
        plt.grid(True)
        plt.legend()
        plt.tight_layout()
        plt.show()

    except Exception as e:
        sys.exit(f"Erro: {e}")

if __name__ == "__main__":
    main()

O código gerado compila e executa corretamente com python solver.py --eq "dy/dx = x + y" --x0 0 --y0 1 --x_end 2 --h 0.1, produzindo uma curva exponencial coerente com a solução analítica y = 2eˣ − x − 1.

Disponibilidade

O Aqui-v4.5, Aqui-v4.5 Fast e Aqui-v4.5 Image já estão disponíveis para todos os usuários do AquiGPT. O Aqui-v4.5 Heavy será lançado em dezembro de 2025 em versão preview. O AQUI e o ImageGenBench serão utilizados internamente para desenvolvimento contínuo, com resultados futuramente publicados em relatórios técnicos trimestrais.