Aqui-v2-5: O Novo Padrão em IA
Apresentamos Aqui-v2-5 e Aqui-v2-5 mini: modelos de alta performance, líderes em benchmarks globais de conhecimento, matemática e programação, com eficiência e custo otimizados.
- Aqui-v2-5: 300B parâmetros, 256K contexto, topo em conhecimento e matemática.
- Aqui-v2-5 mini: 21B parâmetros, rápido e eficiente, supera modelos globais da mesma faixa.
- Aqui-v2-5 Thinking: (veja comparação técnica abaixo)
Benchmarks: Aqui-v2-5 vs. Principais Modelos
Modelo | MMLU-Pro | AIME 2024 | LiveCodeBench | Humanity's Last Exam | GPQA Diamond | Média |
---|---|---|---|---|---|---|
Aqui-v2-5 | 83 | 75 | 56 | 7.6 | 74 | 59.12 |
Aqui-v2-5 mini | 80 | 65 | 50 | 6.7 | 70 | 54.34 |
GPT-4.1 | 81 | 44 | 46 | 4.6 | 67 | 48.32 |
Claude 4 Sonnet | 84 | 41 | 45 | 4.0 | 68 | 48.40 |
Gemini 2.5 Flash | 81 | 50 | 50 | 5.1 | 68 | 50.82 |
Kimi K2 | 81 | 69 | 53 | 4.7 | 75 | 56.34 |
Qwen3 235B | 83 | 72 | 52 | 10.6 | 75 | 58.12 |
DeepSeek V3.1 | 82 | 52 | 41 | 5.2 | 66 | 49.44 |
Aqui-v2-5 Thinking: Raciocínio, Programação, Matemática e Agentes
Aqui-v2-5 Thinking entrega raciocínio avançado (Chain-of-Thought), excelência em programação, matemática e benchmarks de agentes. Veja a comparação técnica com os principais modelos agentic do mercado:
Modelo | Reasoning (MMLU-Pro, GPQA-D, HLE) |
Programação (LiveCodeBench, SciCode) |
Matemática (AIME 2024, MATH-500) |
Agentes (TAU-Bench Retail & Airline) |
Média |
---|---|---|---|---|---|
Aqui-v2-5 Thinking | 61.7 | 61.0 | 96.0 | 67.9 | 71.7 |
Qwen3 2507 Thinking | 59.3 | 60.5 | 96.0 | 65.0 | 70.2 |
DeepSeek R1 0528 | 60.3 | 58.5 | 93.5 | 58.7 | 67.8 |
GLM-4.5 | 58.1 | 54.5 | 92.5 | 70.1 | 68.8 |
Gemini 2.5 Pro | 63.7 | 61.5 | 93.0 | 62.5 | 70.2 |
OpenAI o3 | 62.7 | 59.5 | 94.5 | 61.2 | 69.5 |
Claude 4 Opus | 59.6 | 52.0 | 87.0 | 70.5 | 67.3 |
Aqui-v2-5 mini: Performance Compacta
Aqui-v2-5 mini redefine o padrão para modelos compactos. Com 21B parâmetros, supera modelos globais de 30B+ em conhecimento, matemática e programação, mantendo custo e velocidade superiores.
Modelo | MMLU-Pro | AIME 2024 | LiveCodeBench | Humanity's Last Exam | GPQA Diamond | Média |
---|---|---|---|---|---|---|
Aqui-v2-5 mini | 80 | 65 | 50 | 6.7 | 70 | 54.34 |
Aqui-v2-0 | 81 | 54 | 48 | 4.9 | 70 | 51.58 |
GPT-4.1 | 81 | 44 | 46 | 4.6 | 67 | 48.32 |
Claude 4 Sonnet | 84 | 41 | 45 | 4.0 | 68 | 48.40 |
Especificações Técnicas e Preços
Modelo | Parâmetros | Contexto | Velocidade | Preço (1M i/o) | AAII | CoT | Data Conhecimento |
---|---|---|---|---|---|---|---|
Aqui-v2-5 | 300B (a32B) | 256K | 100 tps | $0.2/0.8 | 61 | Não | Out 2024 |
Aqui-v2-5 Thinking | 300B (a32B) | 256K | 100 tps | $0.3/1.2 | 70 | Sim | Out 2024 |
Aqui-v2-5 mini | 21B (a3B) | 256K | 150 tps | $0.15/0.6 | 57 | Não | Out 2024 |
Próximos Lançamentos
- Aqui-v2-5 Coder: modelo especializado em programação, com benchmarks inéditos.
- Aqui-v2-5 mini Thinking: raciocínio avançado em um modelo compacto.
- Atualizações para a linha base: melhorias contínuas em performance, custo e raciocínio.
Disponibilidade
Os modelos Aqui-v2-5, Thinking e mini já estão disponíveis no AquiGPT para todos os usuários. Teste agora e experimente o novo padrão em IA.
Benchmarks e AAII baseados em Artificial Analysis e avaliações internas Aqui Solutions.