DeepSeek-V4 amplia contexto para 1 milhão de tokens em nova série de IA - Brasileira.News
Início Ciência & Inovação DeepSeek-V4 amplia contexto para 1 milhão de tokens em nova série de...

DeepSeek-V4 amplia contexto para 1 milhão de tokens em nova série de IA

0
1

A DeepSeek apresentou uma versão preliminar da série DeepSeek-V4, composta pelos modelos DeepSeek-V4-Pro e DeepSeek-V4-Flash, ambos com suporte a contexto de até um milhão de tokens. O anúncio foi publicado na página do modelo na Hugging Face e detalha mudanças de arquitetura, otimização e treinamento, além de comparações de desempenho com versões anteriores e com outros modelos de linguagem. De acordo com informações da Hugging Face, a proposta da nova série é elevar a eficiência em tarefas de contexto longo e raciocínio.

Segundo o material técnico, o DeepSeek-V4-Pro tem 1,6 trilhão de parâmetros totais, com 49 bilhões ativados, enquanto o DeepSeek-V4-Flash reúne 284 bilhões de parâmetros totais, com 13 bilhões ativados. Os dois modelos utilizam arquitetura do tipo Mixture-of-Experts, ou MoE, e foram treinados previamente com mais de 32 trilhões de tokens, antes de uma etapa posterior de especialização e consolidação.

O que muda na arquitetura do DeepSeek-V4?

O relatório afirma que a série incorpora uma arquitetura de atenção híbrida que combina Compressed Sparse Attention, ou CSA, com Heavily Compressed Attention, ou HCA. De acordo com a descrição publicada, essa combinação busca melhorar a eficiência em janelas extensas de contexto. No cenário de um milhão de tokens, o texto informa que o DeepSeek-V4-Pro exige 27% dos FLOPs de inferência de um único token e 10% do cache KV em comparação com o DeepSeek-V3.2.

O documento também cita a adoção de conexões chamadas Manifold-Constrained Hyper-Connections, descritas como um reforço às conexões residuais convencionais para melhorar a estabilidade da propagação de sinal entre camadas. Outro ponto destacado é o uso do otimizador Muon, apontado pela empresa como um recurso para acelerar a convergência e aumentar a estabilidade do treinamento.

— Publicidade —
Google AdSense • Slot in-article

  • DeepSeek-V4-Pro: 1,6 trilhão de parâmetros totais e 49 bilhões ativados
  • DeepSeek-V4-Flash: 284 bilhões de parâmetros totais e 13 bilhões ativados
  • Contexto máximo: um milhão de tokens
  • Precisão mista FP4 e FP8 em versões instruídas
  • Treinamento prévio com mais de 32 trilhões de tokens

Quais resultados de desempenho foram informados?

A publicação reúne tabelas com resultados em diferentes grupos de benchmark, incluindo conhecimento geral, linguagem, raciocínio, programação, matemática, contexto longo e tarefas agenticas. Entre os dados apresentados para os modelos base, o DeepSeek-V4-Pro-Base aparece com 90,1 em MMLU, 73,5 em MMLU-Pro, 76,8 em HumanEval e 51,5 em LongBench-V2. Já o DeepSeek-V4-Flash-Base registra 88,7 em MMLU, 68,3 em MMLU-Pro, 69,5 em HumanEval e 44,7 em LongBench-V2.

Nas comparações entre modos de raciocínio, a DeepSeek informa que os modelos instruídos operam em três formatos: Non-think, Think High e Think Max. O texto descreve o primeiro como voltado a respostas rápidas, o segundo para análises lógicas mais lentas e o terceiro para explorar o limite da capacidade de raciocínio do modelo. Nas tabelas divulgadas, o DeepSeek-V4-Pro Max alcança 93,5 em LiveCodeBench, 90,1 em GPQA Diamond e 83,5 em MRCR 1M.

Como a empresa descreve o posicionamento dos modelos?

O relatório afirma que o DeepSeek-V4-Pro-Max avança nas capacidades de conhecimento de modelos de código aberto e o define como o melhor modelo open source disponível atualmente. Como se trata de uma caracterização feita pela própria desenvolvedora, o dado deve ser entendido como parte da apresentação institucional do produto. O material também sustenta que a variante Flash-Max pode atingir desempenho de raciocínio comparável ao Pro em cenários com maior orçamento de pensamento, embora fique atrás em tarefas de conhecimento puro e fluxos agenticos mais complexos.

Na comparação com outros modelos listados no documento, o DeepSeek-V4-Pro Max aparece com métricas como 57,9 em SimpleQA-Verified, 67,9 em Terminal Bench 2.0, 80,6 em SWE Verified e 1554 em GDPval-AA. As tabelas também incluem referências a modelos identificados como Opus-4.6 Max, GPT-5.4 xHigh, Gemini-3.1-Pro High, K2.6 Thinking e GLM-5.1 Thinking.

O que mais foi divulgado sobre uso e implementação?

A publicação informa que o lançamento não inclui um template de chat no formato Jinja. Em vez disso, a DeepSeek disponibiliza uma pasta de codificação com scripts em Python e casos de teste para demonstrar como converter mensagens em formato compatível com a OpenAI em strings de entrada e como interpretar a saída textual do modelo. O material traz ainda um exemplo de uso com a biblioteca Transformers.

Com isso, a divulgação do DeepSeek-V4 se concentra em três eixos: ampliação do contexto para um milhão de tokens, mudanças técnicas para reduzir custo computacional em tarefas longas e apresentação de benchmarks para sustentar o avanço da nova geração. O anúncio, porém, se baseia nos próprios dados publicados pela desenvolvedora na página do modelo, sem validação independente apresentada no texto original.

DEIXE UM COMENTÁRIO

Please enter your comment!
Please enter your name here