A empresa chinesa de tecnologia robótica LimX Dynamics realizou recentemente um teste de demonstração com seu Robô Bípede P1, que mostrou uma capacidade notável de responder quando ameaçado por um humano e de atravessar terrenos complexos.
O robô P1 usa aprendizado por reforço para responder a estímulos externos, como objetos em movimento ou obstáculos em um caminho.
O aprendizado por reforço é um subconjunto de técnicas usadas para treinar algoritmos de Inteligência Artificial (IA). O teste mais recente para a plataforma P1 ocorreu na Montanha Tanglang, em Xangai, China.
O objetivo do teste era colocar a plataforma em um ambiente imprevisível, caracterizado por terrenos acidentados que exigiam que o P1 estivesse constantemente ciente de seu entorno e incorporasse os dados de volta em suas respostas através do aprendizado por reforço.
Durante o teste, o robô demonstrou a capacidade de escalar colinas gramadas, mover-se ao redor de valas, recuperar sua marcha após tropeçar e não apenas permanecer estável depois de ser chutado e puxado, mas também manter a estabilidade após repetidos golpes nas pernas com um bastão.
Uma inspeção mais detalhada do vídeo também revelou que o bastão do treinador quebrou depois de atingir as pernas do robô.
Ao contrário de outros ramos de aprendizado de máquina, como aprendizado supervisionado e não supervisionado, que dependem de ou eliminam tags de dados para treinar software, o aprendizado por reforço usa recompensas ou penalidades para permitir que um sistema tome decisões.