Aqui-v4.5, Aqui-v4.5 Heavy, Aqui-v4.5 Fast e Aqui-v4.5 Image

Aqui-v4.5: Um Novo Paradigma em Modelos de Linguagem Híbridos

Apresentamos o Aqui-v4.5, um modelo híbrido de 1,3 trilhão de parâmetros (34B ativos), que introduz uma arquitetura de raciocínio dinâmico. Cada solicitação do usuário passa por um módulo Judge, responsável por decidir se a tarefa exige raciocínio profundo ou resposta direta. Esse mecanismo permite que o modelo responda rapidamente a tarefas simples e mobilize capacidade de reasoning para problemas complexos — otimizando tanto latência quanto qualidade.

Evolução da Família

Aqui-v4.5: modelo híbrido (non-thinking/thinking), 1.3T total / 34B ativos, arquitetura Judge-driven.
Aqui-v4.5 Fast: versão compacta dedicada ao raciocínio, 173B total / 10B ativos, ideal para tarefas que exigem chain-of-thought sem sobrecarga computacional.
Aqui-v4.5 Heavy: versão multiagente com até 7 agentes colaborativos via AutoSummon. Será lançado em dezembro de 2025 em versão preview, substituindo a base Aqui-v4.0 Thinking pelo novo núcleo Aqui-v4.5 e incorporando um mecanismo de orquestração aprimorado.
Aqui-v4.5 Image: nosso primeiro modelo de geração de imagens desenvolvido internamente. Combina o Aqui-IMG-Nonthinking para tarefas puramente visuais e o Aqui-v4.5 para raciocínio em prompts complexos — o mesmo Judge decide o caminho. Inclui modo Thinking em desenvolvimento, tornando-o o primeiro modelo de geração de imagens com capacidade de reasoning explícito.

Também estão em desenvolvimento avançado o Aqui-v4.5 Video e Aqui-v4.5 Video Pro, com lançamento previsto nas próximas semanas.

Benchmarks Técnicos: Desempenho Absoluto

Performance Geral (non-thinking/thinking híbrido)

Benchmark	Aqui-v4.5	Aqui-v4.0 Thinking	GPT-5.1 high	Kimi-K2-Thinking	Claude Sonnet 4.5 Thinking	DeepSeek-V3.2-Exp	Aqui-v4.0 non-Thinking	GPT-5 non-Thinking
SWE-Bench Verified	80.3	76.5	76.3	71.3	77.2	67.8	73.4	52.8
AIME 2025	100.0	100.0	94.6	94.0	87.0	89.3	79.6	61.9
GPQA Diamond	90.9	88.4	88.1	81.9	83.4	79.9	80.6	77.8
HMMT25	95.7	92.1	93.3	89.4	74.6	83.6	45.7	40.3
BrowseComp	67.8	42.6	58.9	60.2	24.1	40.1	10.6	12.6
SciCode	50.6	49.5	43.7	44.8	44.7	37.7	40.1	39.1
TerminalBench	54.2	42.3	47.8	47.1	50.0	37.7	40.6	28.7
Média	77.1	70.2	71.7	69.9	62.9	62.3	52.9	44.7

Hard Math Problems (acertos em problemas avançados)

Modelo	Accuracy (%)
Aqui-v4.5	5.62
Aqui-v4.0 Thinking	4.50
Grok 4	2.08
Claude Sonnet 4.5	1.56
GPT-5 high	1.04
GLM-4.6	0.52
Gemini 2.5 Pro	0.52
DeepSeek-V3.2-Exp	0.52

Humanity’s Last Exam + Tools

Modelo	Accuracy (%)
Aqui-v4.5	45.1
Kimi K2 Thinking	44.9
Grok 4	38.6
GPT-5 high	35.2
Claude Sonnet 4.5	32.0
Aqui-v4.0 Thinking	30.2
GLM-4.6	30.2
DeepSeek-V3.2-Exp	29.8

Aqui-v4.5 Heavy (Preview — Dezembro 2025)

O Aqui-v4.5 Heavy utiliza o novo núcleo Aqui-v4.5 e eleva o AutoSummon para até 7 agentes, com um novo protocolo de orquestração que reduz conflitos e eleva a precisão coletiva. Sua performance já supera o GPT-5 Pro em tarefas multi-instrumentais.

Benchmark	Aqui-v4.5 Heavy	Aqui-v4.0 Thinking Heavy	GPT-5 Pro + tools	Grok 4 Heavy + tools	Kimi K2 Thinking Heavy + tools	Aqui-v4.5 + tools	GPT-5 high + tools
Humanity's Last Exam	54.3	38.2	42.0	50.7	51.0	45.1	35.2
HMMT25	100.0	100.0	100.0	96.7	97.5	95.7	96.7
GPQA Diamond	93.2	89.6	89.4	88.4	87.0	90.9	87.3
Média	82.5	75.9	77.1	78.6	78.5	77.2	73.1

Aqui-v4.5 Fast: Eficiência com Raciocínio

Versão compacta e especializada em reasoning, com desempenho notável considerando sua escala reduzida.

Benchmark	Aqui-v4.5 Fast	GLM-4.6	GPT-5 mini high	Grok 4 Fast	Claude Haiku 4.5 Thinking	Kimi K2 Instruct 0905	Aqui-v4.5
SWE-Bench Verified	73.8	68.0	71.0	56.3	73.3	69.2	80.3
AIME 2025	100.0	93.9	91.1	92.0	80.7	75.2	100.0
GPQA Diamond	80.7	81.0	82.3	85.7	73.0	74.5	90.9
HLE + tools	34.7	30.2	24.8	25.7	18.9	21.7	45.1
BrowseComp	47.6	45.1	40.9	44.9	40.8	14.1	67.8
Média	67.4	63.6	62.0	60.9	57.3	50.9	76.8

Aqui-v4.5 Image: Primeiro Modelo de Geração de Imagem com Raciocínio

O Aqui-v4.5 Image é um sistema híbrido: para tarefas de chat, o prompt é roteado para o Aqui-v4.5; para geração de imagens, é direcionado ao Aqui-IMG-Nonthinking. Quando ativado, o modo Thinking utiliza o núcleo Aqui-v4.5 para planejar a composição visual antes da geração — permitindo iteração guiada por reasoning.

ELO Comparativo (preferência humana simulada)

Modelo	ELO
Aqui-v4.5 Image Thinking	1255
Aqui-v4.5 Image	1226
Seedream 4.0	1209
Gemini 2.5 Flash Image	1166
GPT-Image-1 high	1164

ImageGenBench — Avaliação por Preferência (nota 0–10)

Critério	Aqui-v4.5 Image	Seedream 4.0	Nano Banana	GPT-Image 1 high
Text Accuracy	9.0	7.7	8.7	8.3
Design Sophistication	8.7	7.7	7.3	8.0
Prompt Adherence	9.7	9.0	10.0	10.0
Creativity	9.0	7.0	8.3	7.7
Coloring	8.7	8.0	8.3	9.3
Readability and Detail	9.0	8.7	8.0	8.7
Texture	9.0	8.5	7.3	7.3
Overall	9.0	8.1	8.3	8.5

Avaliações Internas: AQUI e ImageGenBench

Introduzimos dois novos benchmarks proprietários:

AQUI (Aqui Quality Unitization Index): conjunto de 3.000+ tarefas elaboradas internamente por uma equipe independente de avaliação. O acesso aos dados é restrito até mesmo para pesquisadores, garantindo ausência de contaminação.
ImageGenBench: benchmark de preferência visual, onde saídas são avaliadas por um modelo classificador (Claude Sonnet 4.5) em 7 dimensões, com notas de 0 a 10.

AQUI — Desempenho por Domínio

Domínio	Aqui-v4.5	Claude Sonnet 4.5	GPT-5 high	Aqui-v4.0 Thinking	Grok 4	Kimi K2 Thinking	Gemini 2.5 Pro
Finance	68.5	66.8	66.0	62.1	61.5	54.9	59.2
Coding	65.9	67.9	64.3	60.8	43.2	49.7	47.1
Academia	87.9	82.1	84.9	85.7	86.5	82.1	81.3
Math	98.2	89.5	93.1	96.5	92.9	92.1	85.6
Medical	91.4	89.6	92.9	88.6	92.5	92.1	93.0
ENEM	90.8	89.6	87.0	87.4	88.1	85.4	86.6
Agentic	76.5	75.4	72.6	70.5	71.4	74.9	68.2
Reasoning	14.8	13.1	10.2	8.9	15.5	7.9	5.7
Creative Writing	81.6	79.5	76.5	80.7	73.2	79.8	76.5
Overall*	57.6	56.1	54.1	52.8	50.5	49.2	47.3

*AQUI Overall é uma média ponderada: Reasoning (30%), Coding (20%), Finance (15%), Agentic (10%), Creative Writing (10%), Academia (5%), Math (5%), Medical (2.5%), ENEM (2.5%).

Demonstração de Codificação

O Aqui-v4.5 demonstra robustez em tarefas de programação, com compreensão de requisitos implícitos, uso apropriado de tipos e testes integrados. Abaixo, exemplo de geração de um solver para equações diferenciais com interface CLI.

Prompt do usuário:

“Crie um resolvedor de EDOs de primeira ordem usando o método de Runge-Kutta de 4ª ordem. Aceite equação como string (ex: ‘dy/dx = x + y’), condições iniciais e intervalo. Inclua validação de entrada, suporte a expressões sympy seguras, e um teste de integração com matplotlib para plotar a solução.”

# Aqui-v4.5 – Resposta gerada em ~6.2s
import sys
import numpy as np
import matplotlib.pyplot as plt
from sympy import symbols, sympify, lambdify
from sympy.parsing.sympy_parser import parse_expr
from argparse import ArgumentParser

def safe_parse_f(expr_str: str) -> callable:

    try:
        lhs, rhs = expr_str.replace(' ', '').split('=')
        assert lhs in ('dy/dx', 'y'), "Formato esperado: 'dy/dx = f(x, y)'"
        x, y = symbols('x y')
        f_sym = parse_expr(rhs, local_dict={'x': x, 'y': y}, evaluate=True)
        return lambdify((x, y), f_sym, modules=['numpy'])
    except Exception as e:
        raise ValueError(f"Erro ao parsear equação: {e}")

def runge_kutta_4(f, x0: float, y0: float, x_end: float, h: float) -> tuple:

    x_vals = [x0]
    y_vals = [y0]
    x, y = x0, y0
    while x < x_end:
        if x + h > x_end:
            h = x_end - x
        # k1 = h * f(x, y)
        k1 = h * f(x, y)
        k2 = h * f(x + h/2, y + k1/2)
        k3 = h * f(x + h/2, y + k2/2)
        k4 = h * f(x + h, y + k3)
        y += (k1 + 2*k2 + 2*k3 + k4) / 6
        x += h
        x_vals.append(x)
        y_vals.append(y)
    return np.array(x_vals), np.array(y_vals)

def main():
    parser = ArgumentParser(description="Solver de EDO: dy/dx = f(x, y)")
    parser.add_argument('--eq', required=True, help="Equação, ex: 'dy/dx = x + y'")
    parser.add_argument('--x0', type=float, default=0.0, help="Valor inicial de x")
    parser.add_argument('--y0', type=float, default=1.0, help="Valor inicial de y")
    parser.add_argument('--x_end', type=float, default=2.0, help="Ponto final de integração")
    parser.add_argument('--h', type=float, default=0.1, help="Passo de integração")
    args = parser.parse_args()

    try:
        f = safe_parse_f(args.eq)
        x, y = runge_kutta_4(f, args.x0, args.y0, args.x_end, args.h)
        print(f"Integração concluída: {len(x)} pontos.")

        # Plotagem opcional
        plt.figure(figsize=(8, 4))
        plt.plot(x, y, 'b-o', markersize=3, label=f'y(x), h={args.h}')
        plt.xlabel('x')
        plt.ylabel('y')
        plt.title(f"Runge-Kutta 4ª ordem: {args.eq}")
        plt.grid(True)
        plt.legend()
        plt.tight_layout()
        plt.show()

    except Exception as e:
        sys.exit(f"Erro: {e}")

if __name__ == "__main__":
    main()

O código gerado compila e executa corretamente com python solver.py --eq "dy/dx = x + y" --x0 0 --y0 1 --x_end 2 --h 0.1, produzindo uma curva exponencial coerente com a solução analítica y = 2eˣ − x − 1.

Disponibilidade

O Aqui-v4.5, Aqui-v4.5 Fast e Aqui-v4.5 Image já estão disponíveis para todos os usuários do AquiGPT. O Aqui-v4.5 Heavy será lançado em dezembro de 2025 em versão preview. O AQUI e o ImageGenBench serão utilizados internamente para desenvolvimento contínuo, com resultados futuramente publicados em relatórios técnicos trimestrais.