Robô Aprende 1.000 Tarefas: MT3 Imperial College London

Pesquisadores do Imperial College London desenvolveram o MT3, um método que permite que um robô aprenda 1.000 tarefas diferentes em menos de 24 horas, cada uma com apenas uma demonstração humana. O sistema divide o aprendizado em duas fases sequenciais — alinhamento e interação — e usa recuperação em espaço latente, alcançando uma eficiência 10 vezes superior aos métodos tradicionais de behavioral cloning.

Pontos-Chave

MT3 aprende 1.000 tarefas em 24 horas com uma demonstração cada
Decomposição em duas fases: alinhamento e interação
Recuperação latente supera behavioral cloning em 10x
Generaliza para objetos nunca vistos durante treinamento
Pode transformar a economia da automação industrial

Robô Aprende 1.000 Tarefas em 24h

Um braço robótico no laboratório do Imperial College London aprendeu a executar 1.000 tarefas diferentes em menos de 24 horas. Cada tarefa foi ensinada com apenas uma demonstração humana. O segredo é o MT3 (Multi-Task Trajectory Transfer), um método que divide o aprendizado em duas fases sequenciais: alinhamento e interação com objetos (Dreczkowski et al., Science Robotics, 2025). Essa eficiência representa uma ordem de magnitude superior aos métodos tradicionais de behavioral cloning, que exigem centenas ou milhares de demonstrações por tarefa para funcionar razoavelmente bem.

Tradicionalmente, robôs precisam de centenas ou milhares de demonstrações para aprender uma única tarefa. O BC-Z, por exemplo, exigiu cerca de 26.000 demonstrações para dominar apenas 100 tarefas. O RT-1 precisou de 130.000 demonstrações em 744 tarefas, uma média de 175 a 250 demonstrações por tarefa (Dreczkowski et al.). O MT3 inverteu essa lógica: uma demonstração basta.

Por Que Imitação é Ineficiente

Behavioral cloning, o padrão atual, aprende a trajetória completa como uma única política monolítica. O robô tenta copiar todos os movimentos humanos de uma só vez, incluindo o posicionamento fino do braço e a interação com o objeto. Isso gera um problema enorme de ineficiência de dados. Pergunte a qualquer pesquisador de robótica: a maioria dos sistemas atuais precisa de 175 a 250 demonstrações por tarefa para funcionar razoavelmente bem (BC-Z: Zero-Shot Task Generalization, AY-Robots, 2023).

Quando você escala isso para mil tarefas, o custo explode em tempo humano e infraestrutura de coleta de dados. É por isso que robôs manipuladores ainda não estão em toda fábrica e casa: ensiná-los custa uma fortuna. Um braço robótico que precisa de 200 demonstrações por tarefa não é viável comercialmente para pequenas e médias empresas.

Método	Demonstrações por Tarefa	Escalabilidade	Aplicação Realista
BC-Z (Google)	~260	Alta	Laboratório
RT-1 (Google)	~175	Média	Laboratório
MT3 (Imperial)	1	Extrema	Produção

Decomposição em Duas Fases

A descoberta do Imperial College é simples, mas radical. Em vez de uma política única, o MT3 divide a tarefa em dois estágios consecutivos. Primeiro vem o alinhamento: o robô posiciona o efetuador final ou o objeto segurado em relação ao objeto alvo. Depois, a interação: o robô manipula o objeto de fato (OpenReview, 2025).

Essa separação não é apenas organizacional. Cada fase usa uma abordagem diferente de aprendizado. Para alinhamento, o MT3 usa recuperação em um espaço latente aprendido. Para interação, também usa recuperação. A diferença fundamental é que o robô não tenta copiar a trajetória completa — ele consulta um banco de dados de demonstrações anteriores e adapta os movimentos para o contexto atual (Dreczkowski et al.).

Imagine tentar aprender a jogar tênis assistindo um vídeo inteiro sem separar a preparação do saque do impacto com a raquete. É difícil. Agora imagine estudar a preparação separada do impacto. Muito mais eficiente. O MT3 aplica essa lógica à robótica.

Recuperação Supera Clonagem

O estudo comparou quatro combinações diferentes de alinhamento e interação. Pose estimation ou behavioral cloning para alinhamento, combinado com open-loop replay ou behavioral cloning para interação. Os pesquisadores conduziram 3.450 testes no mundo real para validar cada abordagem (Dreczkowski et al.).

Em todos os casos, recuperação superou clonagem quando o número de demonstrações por tarefa era menor que 10. A diferença é de uma ordem de magnitude em eficiência de dados. Isso significa que o MT3 aprende 10 vezes mais rápido que os métodos monolíticos no regime de poucas demonstrações. É a diferença entre um sistema acadêmico caro e algo que pode ser implantado no mundo real.

Fase	Abordagem Tradicional	MT3	Melhoria
Alinhamento	Behavioral Cloning	Recuperação Latente	5x mais eficiente
Interação	Behavioral Cloning	Recuperação Latente	8x mais eficiente
Combinado	Política Única	Duas Fases	10x mais eficiente

Generalização Para Objetos Novos

Além da eficiência, o MT3 generaliza para objetos nunca vistos durante o treinamento. Um robô que aprendeu a pegar uma caneta azul pode pegar uma caneta vermelha sem nova demonstração. A recuperação em espaço latente permite que o sistema encontre correspondências semânticas entre objetos, não apenas correspondências visuais exatas (Dreczkowski et al.).

Os pesquisadores testaram isso com 100 tarefas não vistas, usando objetos da mesma categoria mas com aparência diferente. Em 2.200 testes adicionais, o sistema performou consistentemente acima da linha de base. A generalização não se limita a cor ou tamanho — o robô adapta manipulações para objetos de formatos diferentes dentro da mesma categoria funcional. É uma forma primitiva de abstração conceitual aplicada à manipulação física.

Limitações e Falhas

Nem tudo é perfeito. Tarefas que exigem precisão extrema, como inserções e pendurar objetos, tiveram taxas de sucesso mais baixas. O sistema open-loop do MT3 não ajusta os movimentos em tempo real se algo sair do planejado inicial. Para tarefas com tolerância de erro mínima, isso é um problema significativo (OpenReview, 2025).

Além disso, o estudo se concentrou em tarefas de manipulação de curto horizonte. Tarefas complexas de múltiplos passos, como preparar uma refeição completa ou montar móveis, exigem mais do que composição simples de interações individuais. O planejamento sequencial e o contexto de longo prazo ainda desafiam o sistema. Os pesquisadores reconhecem essas limitações e apontam para trabalhos futuros que integram feedback em tempo real e planejamento de longo prazo.

Outra limitação é o hardware. O estudo foi conduzido com um braço robótico específico em um ambiente controlado. Transferir o MT3 para diferentes plataformas robóticas exigirá adaptações e possivelmente recuperação de dados. A dependência de demonstrações humanas de alta qualidade também é um gargalo — se a demonstração for ruim, o aprendizado será ruim.

Futuro da Robótica

Ensinar 1.000 tarefas em 24 horas transforma a economics da robótica. Se um robô pode aprender um novo trabalho em menos de 90 segundos, o custo de implantação cai drasticamente. Fábricas podem reconfigurar linhas de produção sem meses de treinamento especializado. Casas podem ter robôs que aprendem as preferências dos moradores em um único dia (Video: Learning a Thousand Tasks in a Day, YouTube, 2025).

Imagine uma linha de montagem que muda de produto toda semana. Antes do MT3, isso seria inviável — cada novo produto exigiria meses de coleta de dados e treinamento. Com MT3, a equipe demonstra o processo uma vez e o robô está pronto. A flexibilidade produtiva que antes era exclusiva de empresas multinacionais torna-se acessível a qualquer fabricante.

A combinação de decomposição e recuperação não é apenas uma técnica acadêmica. É um paradigma que pode ser aplicado a outros domínios de aprendizado por máquina. O segredo não está em arquiteturas mais complexas, mas em melhor estruturação do problema. Decomponha tarefas complexas em subproblemas gerenciáveis, e recupere soluções anteriores em vez de tentar aprender tudo do zero.

Para o Brasil, isso significa oportunidades. Manufatura, logística, agricultura, serviços de saúde — setores que precisam de flexibilidade podem se beneficiar. A barreira de entrada para automação cai. Não é mais preciso contratar equipe especializada em robótica por meses. Basta alguém demonstrar a tarefa. O potencial para pequenos negócios e indústrias locais é enorme.

Perguntas Frequentes

O que é MT3?

MT3 (Multi-Task Trajectory Transfer) é um método de aprendizado por imitação que divide tarefas robóticas em duas fases sequenciais — alinhamento e interação — e usa recuperação em espaço latente para aprender com apenas uma demonstração humana por tarefa.

Quantas demonstrações o MT3 precisa por tarefa?

O MT3 precisa de apenas uma demonstração humana por tarefa. Isso é uma melhoria dramática em comparação com métodos tradicionais como BC-Z (~260 demonstrações) e RT-1 (~175 demonstrações), que exigem centenas de demonstrações por tarefa.

O MT3 funciona com objetos nunca vistos?

Sim. O MT3 generaliza para objetos nunca vistos durante o treinamento. Em testes com 100 tarefas não vistas, o sistema performou consistentemente acima da linha de base, adaptando manipulações para objetos de diferentes formatos dentro da mesma categoria funcional.

Referências

Dreczkowski, K., Vitiello, P., Vosylius, V., & Johns, E. (2025). Learning a Thousand Tasks in a Day. Science Robotics, DOI: 10.1126/scirobotics.adv7594 (arXiv) (OpenReview)
AY-Robots. (2023). BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning – What Scale Really Means (Blog)
Robot Learning Lab at Imperial College London. (2025). Learning a Thousand Tasks in a Day – Demonstration Video (YouTube)
Brohan, A. et al. (2023). RT-1: Robotics Transformer for Real-World Control at Scale. arXiv:2212.06817 (arXiv)