麦克雷 Mavom.cn

标题: 具身智能大模型 [打印本页]

作者: x81035054 时间: 前天 15:40
标题: 具身智能大模型
具身智能（Embodied Intelligence）是指一种基于物理身体进行感知和行动的智能系统。它通过智能体与环境的交互来获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。这种智能不仅依赖于算法和计算，还强调身体在智能形成中的关键作用。
大模时代的具身智能，让具备物理身体的智能体硬件系统具备了，环境互动，自我感知，自我觉醒能力，目前瓶颈主要是大模型反馈速度比较慢，无法在快速的运动环境中进行互动决策，比如宇视科技的机器人，运动能力比较单一，不受实时决策控制。为什么要提出实时具身智能大模型。

作者: eric 时间: 前天 15:41
目前的人工智能存在AI幻觉等一系列较大的问题，我觉得这时追求具身智能为时过早。至少也得在强AI出现以后

作者: x81035054 时间: 前天 15:42
回到“为什么要提出实时具身智能大模型”问题。
这个很重要，如果没有实时的大模型，大模型无法处理实时数据问题，没有实时大模型，无法处理实时数据与大模型意识协同调度问题。

作者: BorrisO 时间: 前天 15:42
加油，搞快一点

作者: x81035054 时间: 前天 15:42
怎么样构建一个实时处理能力的具身大模型？
搞清楚这个问题，必先知道具身设备输入输出有哪些，他们各自的协议，报文格式，时延等。不妨罗列一下，输入：1）全身惯性传感器 2）触觉传感器 3）温度传感器 3）图像摄像头 4）声音传感器 5)各数字舵机运动状态反馈。输出：1）数字舵机控制指令 2）语音播报 3）图像显示。4）USB/disk/ram/network/blutooth IO 等

作者: x81035054 时间: 前天 15:43
怎么样构建一个实时处理能力的具身大模型？
大部分协议是二进制码流，大模型对于是哪种数据格式不敏感，不妨把输入的数据统一为二进制码流，输出是二进制码流。
为了应对多个数据码流输入和多个码流输出，所以要嵌入到多个码流生成模块。这些模块彼此独立要具备低延迟生成能力，都是流式输出码流。其中，图片模态也当做码流生成和输入。这些模块要具备决策控制和反馈接口，以支持上位的智能体ReAct调用。下位的这些快处理模块受到上位决策控制，也将执行信息反馈给上位智能体，智能体ReAct决定是否继续输出或者暂停亦或者调整。

作者: x81035054 时间: 前天 15:44
具身上位ReAct智能体，要内嵌感知层大部分数据情况，以及目前运动历史情况。不停与环境交互生成最终的行为序列。

作者: j16973203 时间: 前天 15:44
VLA都在够呛，一步步走吧

作者: x81035054 时间: 前天 15:44
期待突破

欢迎光临麦克雷 Mavom.cn (http://www.mavom.cn/)