Nace robot que sirve la comida y dialoga con usted

Un robot humanoide conocido como Figura 01, que aprendió a preparar una taza de café con solo mirar imágenes de un humano haciéndolo, ahora puede responder preguntas gracias a una integración con la tecnología OpenAI (Inteligencia Artificial abierta).
En el nuevo vídeo promocional que publicó la semana pasada la prestigiosa organización LiveScience, un técnico le pide a la Figura 01 que realice una serie de tareas sencillas en un entorno de prueba minimalista que se asemeja a una cocina. Primero le pide algo de comer al robot y éste le entrega una manzana. Luego, le pidió a la Figura 01 que explicara por qué le entregó una manzana mientras recogía basura. El robot responde a todas las preguntas con una voz robótica pero amigable.
La compañía dijo en su video que la conversación está impulsada por una integración con tecnología creada por OpenAI, el nombre detrás de ChatGPT. Sin embargo, es poco probable que la Figura 01 esté usando ChatGPT, porque esa herramienta de inteligencia artificial normalmente no usa palabras de pausa como «um», como lo hace este robot.
Si todo en el vídeo funciona como se afirma, significa un avance en dos áreas clave para la robótica. Como dijeron anteriormente los expertos a WordsSideKick.com, el primer avance es la ingeniería mecánica detrás de movimientos diestros y auto-correctores que las personas pueden realizar. Se trata de motores, actuadores y pinzas muy precisos inspirados en articulaciones o músculos, así como el control motor para manipularlos para realizar una tarea y sujetar objetos con delicadeza.
Incluso levantar una taza, algo en lo que la gente apenas piensa conscientemente, utiliza un procesamiento interno intensivo para orientar los músculos en una secuencia precisa.
El segundo avance es el procesamiento del lenguaje natural (NLP) en tiempo real gracias a la incorporación del motor OpenAI, que debe ser tan inmediato y receptivo como ChatGPT cuando escribe una consulta en él. También necesita software para traducir estos datos en audio o voz. La PNL es un campo de la informática que tiene como objetivo dotar a las máquinas de la capacidad de comprender y transmitir el habla.
Aunque las imágenes parecen impresionantes, hasta ahora LiveScience.com se muestra escéptico. Escuche a 0,52 s y nuevamente a 1,49 s, cuando la Figura 01 comienza una oración con un rápido ‘uh’ y repite la palabra ‘yo’, como un ser humano que se toma una fracción de segundo para ordenar sus pensamientos y poder hablar. ¿Por qué (y cómo) un motor de voz con IA incluiría tics de dicción tan aleatorios y humanos? En general, la inflexión también es sospechosamente imperfecta, muy parecida a la cadencia natural e inconsciente que los humanos usan al hablar.
LiveScience sospecha que en realidad podría estar pregrabado para mostrar en qué está trabajando Figure Robotics en lugar de una prueba de campo en vivo, pero si, como afirma el título del video, todo es realmente el resultado de una red neuronal y realmente muestra a la Figura 01 respondiendo en tiempo real, acabamos de dar otro gran salto hacia el futuro.