Ciência & Inovação

DeepSeek-V4 amplia contexto para 1 milhão de tokens em nova série de IA

Por

24/04/2026

A DeepSeek apresentou uma versão preliminar da série DeepSeek-V4, composta pelos modelos DeepSeek-V4-Pro e DeepSeek-V4-Flash, ambos com suporte a contexto de até um milhão de tokens. O anúncio foi publicado na página do modelo na Hugging Face e detalha mudanças de arquitetura, otimização e treinamento, além de comparações de desempenho com versões anteriores e com outros modelos de linguagem. De acordo com informações da Hugging Face, a proposta da nova série é elevar a eficiência em tarefas de contexto longo e raciocínio.

Segundo o material técnico, o DeepSeek-V4-Pro tem 1,6 trilhão de parâmetros totais, com 49 bilhões ativados, enquanto o DeepSeek-V4-Flash reúne 284 bilhões de parâmetros totais, com 13 bilhões ativados. Os dois modelos utilizam arquitetura do tipo Mixture-of-Experts, ou MoE, e foram treinados previamente com mais de 32 trilhões de tokens, antes de uma etapa posterior de especialização e consolidação.

O que muda na arquitetura do DeepSeek-V4?

O relatório afirma que a série incorpora uma arquitetura de atenção híbrida que combina Compressed Sparse Attention, ou CSA, com Heavily Compressed Attention, ou HCA. De acordo com a descrição publicada, essa combinação busca melhorar a eficiência em janelas extensas de contexto. No cenário de um milhão de tokens, o texto informa que o DeepSeek-V4-Pro exige 27% dos FLOPs de inferência de um único token e 10% do cache KV em comparação com o DeepSeek-V3.2.

O documento também cita a adoção de conexões chamadas Manifold-Constrained Hyper-Connections, descritas como um reforço às conexões residuais convencionais para melhorar a estabilidade da propagação de sinal entre camadas. Outro ponto destacado é o uso do otimizador Muon, apontado pela empresa como um recurso para acelerar a convergência e aumentar a estabilidade do treinamento.

— Publicidade —

Google AdSense • Slot in-article

DeepSeek-V4-Pro: 1,6 trilhão de parâmetros totais e 49 bilhões ativados
DeepSeek-V4-Flash: 284 bilhões de parâmetros totais e 13 bilhões ativados
Contexto máximo: um milhão de tokens
Precisão mista FP4 e FP8 em versões instruídas
Treinamento prévio com mais de 32 trilhões de tokens

Quais resultados de desempenho foram informados?

A publicação reúne tabelas com resultados em diferentes grupos de benchmark, incluindo conhecimento geral, linguagem, raciocínio, programação, matemática, contexto longo e tarefas agenticas. Entre os dados apresentados para os modelos base, o DeepSeek-V4-Pro-Base aparece com 90,1 em MMLU, 73,5 em MMLU-Pro, 76,8 em HumanEval e 51,5 em LongBench-V2. Já o DeepSeek-V4-Flash-Base registra 88,7 em MMLU, 68,3 em MMLU-Pro, 69,5 em HumanEval e 44,7 em LongBench-V2.

Nas comparações entre modos de raciocínio, a DeepSeek informa que os modelos instruídos operam em três formatos: Non-think, Think High e Think Max. O texto descreve o primeiro como voltado a respostas rápidas, o segundo para análises lógicas mais lentas e o terceiro para explorar o limite da capacidade de raciocínio do modelo. Nas tabelas divulgadas, o DeepSeek-V4-Pro Max alcança 93,5 em LiveCodeBench, 90,1 em GPQA Diamond e 83,5 em MRCR 1M.

Como a empresa descreve o posicionamento dos modelos?

O relatório afirma que o DeepSeek-V4-Pro-Max avança nas capacidades de conhecimento de modelos de código aberto e o define como o melhor modelo open source disponível atualmente. Como se trata de uma caracterização feita pela própria desenvolvedora, o dado deve ser entendido como parte da apresentação institucional do produto. O material também sustenta que a variante Flash-Max pode atingir desempenho de raciocínio comparável ao Pro em cenários com maior orçamento de pensamento, embora fique atrás em tarefas de conhecimento puro e fluxos agenticos mais complexos.

Na comparação com outros modelos listados no documento, o DeepSeek-V4-Pro Max aparece com métricas como 57,9 em SimpleQA-Verified, 67,9 em Terminal Bench 2.0, 80,6 em SWE Verified e 1554 em GDPval-AA. As tabelas também incluem referências a modelos identificados como Opus-4.6 Max, GPT-5.4 xHigh, Gemini-3.1-Pro High, K2.6 Thinking e GLM-5.1 Thinking.

O que mais foi divulgado sobre uso e implementação?

A publicação informa que o lançamento não inclui um template de chat no formato Jinja. Em vez disso, a DeepSeek disponibiliza uma pasta de codificação com scripts em Python e casos de teste para demonstrar como converter mensagens em formato compatível com a OpenAI em strings de entrada e como interpretar a saída textual do modelo. O material traz ainda um exemplo de uso com a biblioteca Transformers.

Com isso, a divulgação do DeepSeek-V4 se concentra em três eixos: ampliação do contexto para um milhão de tokens, mudanças técnicas para reduzir custo computacional em tarefas longas e apresentação de benchmarks para sustentar o avanço da nova geração. O anúncio, porém, se baseia nos próprios dados publicados pela desenvolvedora na página do modelo, sem validação independente apresentada no texto original.

DeepSeek-V4 amplia contexto para 1 milhão de tokens em nova série de IA

O que muda na arquitetura do DeepSeek-V4?

Quais resultados de desempenho foram informados?

Como a empresa descreve o posicionamento dos modelos?

O que mais foi divulgado sobre uso e implementação?

DEIXE UM COMENTÁRIO Cancel reply

Sobre

Últimas

Convívio social pode ser tão benéfico quanto exercícios físicos, indica estudo

Globo questiona na Justiça uso de marcas de telejornais pela TV Gazeta de Alagoas

Pente-fino no BPC exige atualização do CadÚnico para evitar bloqueios

Mais Lidas

Convívio social pode ser tão benéfico quanto exercícios físicos, indica estudo

Globo questiona na Justiça uso de marcas de telejornais pela TV Gazeta de Alagoas

Pente-fino no BPC exige atualização do CadÚnico para evitar bloqueios

Mapa do Site