生成式AI，让AI机器人也将迎来“iPhone时刻”

MobileALOHA是最近流行的低成本机器人系统，已经走出了圈子，再次刷新了对机器人的关注，也让市场对机器人有了更多的期待。

机器人是一个综合性很强的领域，涵盖了机械、电子、计算机、感知等多个学科。这一跨学科的特点使得机器人技术的发展需要多个领域的技术共同进步，才能在整体上取得突破。所以，机器人技术的发展可能会受到某一领域技术瓶颈的制约。

但近年来，随着信息技术的发展，机器人跨学科的引进速度越来越快。例如图像识别、视觉处理、语音识别等技术，已被机器人行业迅速采用。

2023年，大语言模型（LLM）无疑是最耀眼的技术。将LLM从云移植到边缘的过程也在加速。AIPC和AI手机已经出现。如今，嵌入式产业也迎来了人工智能的新时代。

NVIDIA嵌入式和边缘计算副总裁DeepuTalla最近在CES上发表了一篇关于人工智能和机器人技术融合的演讲。

Talla预测，生成人工智能的影响将超过文本和图像的生成，进入家庭和办公室、农场和工厂、医院和实验室。关键在于，大语言模型(LLM)类似于人脑语言中心，使机器人能够更自然地理解和响应人类的指令。

"人工智能驱动的自主机器人越来越多地用于提高效率，降低成本，解决劳动力短缺问题。Talla说。

DeepuTalla，NVIDIA嵌入式和边缘计算副总裁。

生成AI能给机器人行业带来什么？

生成人工智能将给机器人行业带来翻天覆地的变化。这种自然的互动将使机器人更容易使用、更高效、更可靠。

波士顿电力在机器狗上安装了ChatGPT，支持各种人机交互，充当导游，带领客人参观公司的各种设施。

机器狗，波士顿动力。

CollaborativeRobotics正在开发一种用于人类周围操作的协作机器人。该公司表示，该系统旨在在仓库和其他地方自动执行移动物品的任务，可以携带箱子、提包和手推车。许多企业已经在其物流设施中使用机器人来自动移动货物。但是，更复杂的任务仍然需要人工干预。CollaborativeRobotics表示，他们正在设计的合作机器人可以在没有人工干预的情况下“端到端”完成此类处理任务。其中一个关键指标就是能够使用LLM来实现语义理解。

人工智能拣选机器人Covariant的创始人PeterChen去年发表了一篇文章“AI机器人的GPT时刻即将到来”。Chen指出，“使GPT能够看到、思考甚至说话的核心技术也使机器能够看到、思考和行动。基本模型驱动的机器人能够了解其物理环境，做出明智的决策，并根据不断变化的环境调整其行为。

“机器人GPT”的构建方法与GPT相同——它为一场革命奠定了基础。这场革命将重新定义我们所知道的人工智能。

SanctuaryCognitive开发的Phoenix人形机器人的特点不仅在于它的能力，还在于它的认知能力。该机器人配备了专门为人类动物设计的综合认知架构和软件，可以理解自然语言命令并根据命令执行操作，类似于人类员工遵循口头命令的方式。在决策过程中，Phoenix的认知结构包括推理、任务和行动，可以保证完全透明和问责制。为了提供广泛的通用知识和特定领域的知识，它结合了符号和逻辑推理，并采用了包括OpenAILPChatGPT在内的大型语言模型。Phoenix依靠深度学习和强化学习技术，能够表现出独立的行为和目标寻求行为。深度学习使机器人能够从数据中提取模式，而强化学习使机器人能够通过反复实验来学习执行不同任务的最佳策略。

去年，宇树科技还推出了基于大型GPT赋能的新型四足机器人UnitreeGo2。

AgilityRobotics、NTT和其他公司正在将生成AI集成到他们的机器人中，以帮助理解文本或语音命令。在生成式AI模型创建的模拟生活空间中，追寻科技的机器人吸尘器正在接受训练。ElectricSheep正在开发一种利用生成AI的自动割草机。

这些公司是NVIDIA的合作伙伴。塔拉说：“所有这些都是很自然的。越来越多的合作伙伴正在使用GPU加速的大语言模型，为各种机器带来前所未有的智能和适应性。”

生成AI用于NVIDIA加速机器人行业。

NVIDIAIsaac、Jetson平台等NVIDIA技术可以帮助AI机器人的开发和部署，被120多万开发人员和10000多名客户和合作伙伴所依赖。

这些公司中的许多公司都参与了本周的CES，包括亚德诺半导体、AuroraLabs、Canonical、追求创新技术、DriveU、e-conSystems、Ecotron、EnchantedTools、Gl昱xKind、和赛科技、LeopardImaging、九号公司(岚大陆(北京)科技有限公司)、Nodar、奥比中光、QTGroup、速腾聚创、SpartanRadar、TDK、Telit、宇树科技。

在演讲中，Talla展示了将人工智能部署到机器人技术中所需的双计算机模型（如下所示），展示了NVIDIA在人工智能开发和应用方面的全面性。

第一台电脑被称为“人工智能工厂”，是创建和不断改进人工智能模型的核心。

人工智能工厂使用NVIDIA数据中心计算基础设施和NVIDIAAI和NVIDIAOmniverse平台，可以模拟和训练人工智能模型。

第二台计算机代表机器人的运行环境。

运行环境可以是云或数据中心等，根据应用程序的不同而变化。半导体制造中的缺陷检测等任务是本地服务器。配备多个传感器和摄像头的独立机器也可能成为运行环境。

Talla还重点介绍了LLM在打破技术壁垒方面的作用。LLM可以将普通用户转化为技术艺术家，创建复杂的机器人工作单元或整个仓库模拟。

在NVIDIAPicasso等生成AI工具的帮助下，用户可以根据简单的文本提示生成逼真的3D资产，并将其添加到数字场景中，从而实现动态全面的机器人训练环境。

此功能还可以扩展到在Omniverse中创建多样化的物理场景，从而加强机器人的测试和训练，确保机器人在现实世界中的适用性。

这与生成式人工智能在重建机器人部署方式方面的变革潜力不谋而合。

以前的机器人是专门为特定任务制造的，根据不同的任务修改机器人是非常耗时的。

Talla还解释说，LLM和视觉语言模型领域的进步正在消除这一瓶颈，使我们能够通过自然语言与机器人进行更直观的互动。这种适应性强、能感知周围环境的机器很快就会遍布世界各地。

“在测试或训练机器人时，环境的多样性对于确保机器人能够推广到现实世界非常重要。类似于ChatGPT的工具允许用户在几分钟内创建数千个准确的机器人场景，而不是几天内。”

写在最后。

去年10月，NVIDIA发布了一个名为Eureka的AI系统。该系统基于OpenAI的GPT-4，允许机器人执行30多个复杂动作，如“转笔”、“打开抽屉”、“拿剪刀”和“双手传球”。据报道，Eureka的奖励计划促进了机器人的试错学习，超过了人类在80%以上的任务中制定的奖励计划。英伟达团队表示，这使得机器人的性能提高了50%以上。这些结果是因为人工智能代理使用OpenAIGPT-4和生成人工智能编写软件代码，并在加强学习的过程中奖励机器人。

ChatGPT证明，大型模型可以让计算机理解并展示人类的思维和判断力。就像这样，大型模型可以改变机器人行业的全面改进，包括开发和用户体验。

在今年的CES中，我们还看到了许多生成式人工智能与机器人融合的案例，机器人的“iPhone”时代可能就在这个时候。

这台适应性强、能感知周围环境的机器很快就会遍布世界各地。Talla说。

生成式AI，让AI机器人也将迎来“iPhone时刻”

相关问题

相关内容