麦克雷 Mavom.cn

标题: 具身智能大模型 [打印本页]

作者: x81035054    时间: 前天 15:40
标题: 具身智能大模型
具身智能(Embodied Intelligence)是指一种基于物理身体进行感知和行动的智能系统。它通过智能体与环境的交互来获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。这种智能不仅依赖于算法和计算,还强调身体在智能形成中的关键作用。
大模时代的具身智能,让具备物理身体的智能体硬件系统具备了,环境互动,自我感知,自我觉醒能力,目前瓶颈主要是大模型反馈速度比较慢,无法在快速的运动环境中进行互动决策,比如宇视科技的机器人,运动能力比较单一,不受实时决策控制。为什么要提出实时具身智能大模型。
作者: eric    时间: 前天 15:41
目前的人工智能存在AI幻觉等一系列较大的问题,我觉得这时追求具身智能为时过早。至少也得在强AI出现以后
作者: x81035054    时间: 前天 15:42
回到“为什么要提出实时具身智能大模型”问题。
这个很重要,如果没有实时的大模型,大模型无法处理实时数据问题,没有实时大模型,无法处理实时数据与大模型意识协同调度问题。
作者: BorrisO    时间: 前天 15:42
加油,搞快一点
作者: x81035054    时间: 前天 15:42
怎么样构建一个实时处理能力的具身大模型?
搞清楚这个问题,必先知道具身设备输入输出有哪些,他们各自的协议,报文格式,时延等。不妨罗列一下,输入:1)全身惯性传感器 2)触觉传感器 3)温度传感器 3)图像摄像头 4)声音传感器 5)各数字舵机运动状态反馈。输出:1)数字舵机控制指令 2)语音播报 3)图像显示。4)USB/disk/ram/network/blutooth IO 等
作者: x81035054    时间: 前天 15:43
怎么样构建一个实时处理能力的具身大模型?
大部分协议是二进制码流,大模型对于是哪种数据格式不敏感,不妨把输入的数据统一为二进制码流,输出是二进制码流。
为了应对多个数据码流输入和多个码流输出,所以要嵌入到多个码流生成模块。这些模块彼此独立要具备低延迟生成能力,都是流式输出码流。其中,图片模态也当做码流生成和输入。这些模块要具备决策控制和反馈接口,以支持上位的智能体ReAct调用。下位的这些快处理模块受到上位决策控制,也将执行信息反馈给上位智能体,智能体ReAct决定是否继续输出或者暂停亦或者调整。
作者: x81035054    时间: 前天 15:44
具身上位ReAct智能体,要内嵌感知层大部分数据情况,以及目前运动历史情况。不停与环境交互生成最终的行为序列。
作者: j16973203    时间: 前天 15:44
VLA都在够呛,一步步走吧
作者: x81035054    时间: 前天 15:44
期待突破




欢迎光临 麦克雷 Mavom.cn (http://www.mavom.cn/) Powered by Discuz! X3.5