NVIDIA Cosmos 3: O Modelo Aberto Que Ensina Robôs a Pensar

O Que É o Cosmos 3

A NVIDIA anunciou o Cosmos 3 no dia 1º de junho de 2026, durante o GTC Taipei, e apresentou o que chama de primeiro “omnimodelo” totalmente aberto para IA física. O modelo foi construído com uma arquitetura inédita de mixture-of-transformers que combina raciocínio visual, simulação de mundo e geração de ações num único sistema. Segundo a NVIDIA Newsroom, ele é capaz de entender e gerar texto, imagens, vídeo, som ambiente e ações com precisão física de ponta.

O foco do Cosmos 3 é a chamada IA física: sistemas que precisam interagir com o mundo real, como robôs, veículos autônomos e agentes de visão. Até agora, esses sistemas dependiam de pilhas fragmentadas de simulação, coleta de dados reais e modelos separados para cada tarefa. O Cosmos 3 unifica tudo isso numa fundação única, open source, treinada num dos maiores conjuntos de dados multimodais de IA física já montados — bilhões de amostras cobrindo texto, imagem, vídeo, som e trajetórias de ação.

Arquitetura Que Raciocina e Age

A grande novidade técnica do Cosmos 3 é a sua arquitetura de mixture-of-transformers. Ela funciona em duas etapas encadeadas: um transformer de raciocínio analisa a cena — compreendendo interações entre objetos, movimento e relações espaco-temporais — e depois um transformer especialista gera saídas fundamentadas nessa análise, como vídeos sintéticos e trajetórias de ação para robôs.

Isso difere radicalmente dos modelos tradicionais de linguagem, que só lidam com texto, e até dos modelos multimodais existentes, que geram imagens ou vídeos sem uma compreensão profunda das leis da física. O Cosmos 3 sabe que um copo cai da mesa e quebra — e consegue simular isso com precisão suficiente para treinar um robô a evitar o erro.

O modelo pode ser usado de três formas complementares: como modelo de linguagem visual que raciocina entre modalidades, como modelo de mundo que simula ambientes físicos, e como espinha dorsal para modelos de ação que treinam robôs a executar tarefas específicas. Essa tríade é o que a NVIDIA chama de “perceber, raciocinar, planejar e agir” no mundo físico.

De Meses Para Dias de Treino

Um dos impactos mais práticos do Cosmos 3 é a redução drástica no tempo de desenvolvimento de sistemas de IA física. Treinar um robô ou veículo autônomo costuma exigir meses de coleta de dados reais, configuração de simulações e ajustes de modelo. O Cosmos 3 comprime esse ciclo para dias, gerando dados sintéticos de alta qualidade em cenários que seriam caros, perigosos ou simplesmente impossíveis de reproduzir na vida real.

O AI Apps relata que as capacidades de simulação do Cosmos 3 já estão sendo usadas para criar vídeos sintéticos de cenários médicos raros, permitindo que robôs cirúrgicos acessem dados de treinamento que seriam quase impossíveis de coletar em ambientes clínicos reais.

Esse ganho não é incremental. É uma mudança de paradigma: em vez de precisar de um laboratório físico, milhões de dólares em equipamentos e meses de testes, uma equipe pode gerar milhares de variações de um cenário complexo em horas.

Três Versões, Três Aplicações

A NVIDIA não lançou um modelo só. O Cosmos 3 vem em três variantes pensadas para diferentes estágios do desenvolvimento de IA física:

VarianteFocoUso Principal
Cosmos 3 SuperMáxima precisão físicaPós-treinamento de modelos para robótica e veículos autônomos
Cosmos 3 NanoVelocidade extremaGeração de vídeo e raciocínio de ação em frações de segundo
Cosmos 3 EdgeInferência localExecução em tempo real na borda (em breve)

Como o HPC Wire nota, a versão Nano é particularmente relevante para equipes que precisam de iteração rápida durante o desenvolvimento, enquanto a Super é a escolha para implantação final onde a precisão física é crítica — pense num carro autônomo decidindo se freia ou desvia.

O WinBuzzer destaca que o Cosmos 3 vai além da previsão visual: ele emite dados numéricos de robô, como ângulos de articulação, posições de garras e pontos de trajetória, material que equipes de robótica podem alimentar diretamente em seus fluxos de planejamento e controle.

A Coalizão Cosmos da NVIDIA

Junto com o modelo, a NVIDIA anunciou a Cosmos Coalition, uma colaboração global entre construtores de modelos de mundo e desenvolvedores de IA. Os membros fundadores incluem Agile Robots, Black Forest Labs, Generalist, LTX, Runway e Skild AI — nomes que vão da robótica industrial à geração criativa de vídeo.

A coalizão permite que membros contribuam com modelos, pesquisa e técnicas de avaliação enquanto usam as tecnologias Cosmos 3, ferramentas de treinamento e a infraestrutura NVIDIA DGX Cloud para treinamento em larga escala — parte da mesma estratégia de infraestrutura que levou o Google a alugar 110 mil GPUs da SpaceX. O objetivo declarado é acelerar a inovação, ampliar a interoperabilidade e avançar a IA física de forma colaborativa.

Esse modelo de coalizão aberta é estratégico. A NVIDIA não está apenas lançando um modelo — está criando um ecossistema onde outras empresas constroem em cima da sua plataforma. Cada parceiro que adota o Cosmos 3 fortalece a posição da NVIDIA como infraestrutura padrão para IA física.

Empresas Que Já Adotaram

O Cosmos 3 já tem adoção concreta. Segundo o comunicado oficial da NVIDIA, desenvolvedores de IA física estão construindo sobre a plataforma em diversos setores:

  • Robótica: Agile Robots, Doosan Robotics, LG Electronics, Samsung Electronics e Skild AI
  • Veículos autônomos: Li Auto
  • Visão e segurança: Centific, Fogsphere, Linker Vision e Milestone Systems

A presença de gigantes como Samsung e LG indica que o Cosmos 3 não é um projeto de pesquisa acadêmica — é tecnologia que já está sendo integrada em produtos de consumo e linhas de produção. Empresas de visão e segurança mostram que o modelo também serve para aplicações de monitoramento industrial e análise de vídeo em tempo real.

A diversidade de setores adotantes — de eletrodomésticos inteligentes a carros autônomos — sugere que o Cosmos 3 tem potencial para se tornar uma peça de infraestrutura tão fundamental quanto as GPUs da própria NVIDIA.

Licença Aberta e Acesso

O Cosmos 3 é distribuído sob a licença OpenMDW-1.1, lançada pela Linux Foundation em 28 de maio de 2026. Essa licença permite que desenvolvedores treinem, modifiquem, redistribuam e implantem pesos, arquitetura, documentação, datasets, benchmarks e código sem precisar lidar com múltiplos contratos legais separados.

O acesso é direto: desenvolvedores podem experimentar o Cosmos 3 em build.nvidia.com, baixar modelos abertos do Hugging Face e GitHub, e usar o empacotamento NIM para implantação simplificada. Esse caminho de acesso rápido é parte deliberada da estratégia — a NVIDIA quer que desenvolvedores comecem a usar o modelo imediatamente, sem atrito institucional.

A combinação de licença aberta unificada e múltiplos canais de acesso posiciona o Cosmos 3 de forma diferente de modelos como o GPT-5.5 da OpenAI ou o Claude Opus 4.8 da Anthropic, que permanecem proprietários e acessíveis apenas via API. Para equipes de robótica e visão que precisam customizar modelos para seus domínios específicos, o acesso aos pesos é essencial.

Benchmarks e Líderes

Nos benchmarks, o Cosmos 3 domina. Entre os modelos abertos, ocupa o primeiro lugar em múltiplos rankings:

  • Geração de mundo: Artificial Analysis, Physics-IQ, PAI-Bench e R-Bench
  • Política de ação: RoboLab e RoboArena
  • Compreensão visual: VANTAGE-Bench e TAR

A liderança em benchmarks de física é o que mais importa para o público-alvo do Cosmos 3. Um modelo que gera vídeo bonito mas viola leis da física é inútil para treinar um robô. A supremacia em Physics-IQ e PAI-Bench indica que o modelo entende causalidade física — não apenas padrões visuais superficiais.

A NVIDIA também publicou o relatório técnico completo do Cosmos 3, permitindo que a comunidade científica valide e reproduza os resultados. Essa transparência é consistente com a estratégia open source do projeto.

Impacto Para Desenvolvedores Brasileiros

Para desenvolvedores e startups brasileiras, o Cosmos 3 abre possibilidades concretas. Equipes de robótica que antes dependiam de parcerias com laboratórios internacionais para obter dados de treinamento agora podem gerar seus próprios cenários sintéticos. Startups de visão computacional ganham acesso a um modelo de ponta sem precisar de orçamento de enterprise.

A possibilidade de rodar o Cosmos 3 Nano localmente — e em breve o Edge em dispositivos de borda — é especialmente relevante para o mercado brasileiro, onde latência e custo de cloud podem ser limitantes. Um sistema de visão para segurança industrial numa fábrica no interior de São Paulo pode se beneficiar de inferência local sem depender de conexão com data centers internacionais.

Além disso, a licença OpenMDW-1.1 elimina barreiras jurídicas que frequentemente travam adoção de modelos proprietários por empresas menores. Não é preciso negociar contratos corporativos nem se preocupar com limites de uso em produção.

A Visão de Jensen Huang

“O big bang da IA física está chegando graças a avanços em raciocínio multimodal, linguagem, visão e modelos de mundo”, disse Jensen Huang, fundador e CEO da NVIDIA, no anúncio do Cosmos 3. “A família Cosmos 3 de omnimodelos abertos de fronteira dá aos desenvolvedores um salto generacional na capacidade de construir robôs, veículos autônomos e IA de visão que percebem, raciocinam, planejam e agem no mundo físico.”

A frase não é apenas retórica de marketing. O posicionamento do Cosmos 3 como modelo de fronteira (frontier model) coloca a IA física no mesmo patamar de importância que os modelos de linguagem que dominaram os holofotes nos últimos anos. Se o GPT mudou como processamos texto, o Cosmos 3 quer mudar como as máquinas interagem com a realidade física.

Perguntas Frequentes

O Cosmos 3 é gratuito?

Sim. O Cosmos 3 é distribuído sob a licença OpenMDW-1.1 da Linux Foundation, que permite uso, modificação e redistribuição sem custo. Desenvolvedores podem baixar os pesos do Hugging Face e GitHub, ou experimentar o modelo em build.nvidia.com. O custo surge apenas no uso de infraestrutura cloud (como NVIDIA DGX Cloud) para treinamento em larga escala.

Qual a diferença entre Cosmos 3 Super e Nano?

O Cosmos 3 Super prioriza precisão física máxima, sendo ideal para pós-treinamento de modelos de robótica e veículos autônomos. O Nano foca em velocidade, gerando vídeo e raciocínio de ação em frações de segundo, voltado para iteração rápida durante o desenvolvimento. Já o Cosmos 3 Edge, ainda por lançar, será otimizado para inferência local em dispositivos de borda.

Posso usar o Cosmos 3 sem internet?

Parcialmente. Após baixar os pesos do modelo, é possível rodar inferência localmente com o Cosmos 3 Nano. O Cosmos 3 Edge, anunciado como “em breve”, será especificamente projetado para inferência em tempo real na borda, sem dependência de conexão cloud. Essa capacidade é relevante para aplicações industriais em locais com conectividade limitada.

Referências