科技信息网首页 > 聚焦 > 详细

多模态大模型赋能,聆动通用开启具身智能新时代

时间:2025-04-06 10:08   来源: 中国广告网   阅读量:8195   会员投稿 04

依托多模态大模型赋能,聆动通用开启具身智能全新发展时代

在科技飞速发展的当下,自 2022 年 11 月起,GPT 等模型的崛起及其迅猛发展,为机器人领域带来了翻天覆地的变化。多模态模型,尤其是视觉语言模型,让人形机器人在理解开放式场景和执行复杂认知任务上取得了突破性进展。据预测,未来 10 到 15 年,机器人在知识密度和运算智能上有望超越人类,但在抽象演绎和联想创造新知识方面,人类仍占据优势。在此背景下,机器人更多地被定位为人类的辅助工具,特别是在重复性和危险性任务中发挥重要作用,甚至可能催生如机器人技能训练师等新职业。

2025 年 3 月 13 日,在第三届具身智能机器人产业发展论坛上,聆动通用创始人兼 CEO 季超指出,在机器人技能训练里,数据采集和仿真至关重要。真实数据价值高,然而采集成本也高。借助通用预训练模型,针对垂直领域和客户特定需求进行定制化训练,能够构建出适用于不同行业的强大模型。展望未来,具身机器人极有可能像智能手机一样,重塑商业格局,引领行业从功能型机器人时代迈向智能机器人时代。

大语言模型的突破是近年来人形机器人及具身通用机器人发展的底层逻辑。2022 年 11 月 ChatGPT 进入国内,标志着机器智能进入新阶段,随后 GPT-4 的进化,在复杂认知、推理及多模态任务处理能力上大幅提升,与机器人的视觉语言等模型高度契合。例如 GPT 在多模态复杂场景语义理解和推理能力上表现卓越,让机器人在特定专业领域有超越人类智慧的潜力,串联起机器人的运动控制、感知与决策,为具身工业、制造及家庭等领域创造了无限可能。

国内团队密切关注大模型发展,以 OpenAI 为代表的大模型不断更新迭代。虽然对于大模型的 scaling law 是否达上限存在探讨,但实际上大模型基座的 scaling law 天花板持续被突破,如 OpenAI 的 o1 在处理专业复杂认知任务上超越人类,DeepSeek 在技术等方面也取得创新成果。

聚焦未来机器人与人类的关系,生成式大模型在知识储备上已达较高水平,知识密度可与高校学生媲美,运算智能和知识密度超越人类。不过,在未来 10 至 15 年,其仍不具备人类独有的抽象演绎和联想创造新知识的能力。在柔性制造业,大模型技术已能实现出色管理,但在家庭等开放场景中,距离理想状态仍有差距,尚不具备自主意识。

探讨大模型基座与具身智能模型融合趋势,一方面,大模型未来的价值观和意识形态与国家相关,如在 AI 陪伴和教育领域,其倾向性由顶层参数调整人员决定;另一方面,目前论文及研究成果在理想情况下成功率约 60%-70%,与工业生产要求的 99.999% 可靠性差距巨大,通用或未经针对性训练的认知大模型在工业场景中易出现幻觉,难以稳定完成任务。所以,通用基座将承担重复性等环节,最终决策仍由人类主导,未来机器人将助力人类,而非取代人类,人类角色可能转变为机器人技能训练师或主管。

随着劳动力短缺和中国 AI 高端制造发展,机器取代人力成为必然。近年来模型技术发展和国内供应链演进,使机器人性能提升,成本下降,智能化程度提高,已逐步渗透到多品种、少批量生产场景,投资机器人回报周期约两年,投入产出成本与人的边际成本逐渐交合。

具身智能虽前景广阔,但当前处于发展初期,最大挑战来自数据层面。以 “pick place” 为例,实现泛化抓取等所需数据量是定点抓取的 38 倍。技术路线上,合成数据及仿真数据成本低、效率高、易推广,而真实数据采集困难。解决方案需基于通用预训练基座,针对垂直领域和客户需求,训练出行业矩阵大模型,形成数据飞轮,改善企业经营,提炼行业通用数据。

讯飞聆动作为讯飞系控股子公司,致力于赋予机器人理解与思考能力,助力制造业劳动力优化升级。其团队在具身感知、认知理解等领域成果显著,在空间高阶感知上基于 3D 技术有显著提升。机器人在开放场景中需基于常识推理,其 “大脑” 要具备多模态理解能力。机器人还具备强大运算智能和高密度知识储备,如在蛋白质合成配方获取上远超人类效率。未来机器人将以无代码语音交互为主导,形成多模态交互,为此提出交互大模型。

在实际工作中,讯飞聆动基于行业具身模型任务理解,结合通用预训练基座开展工作。去年采用星火多模态大模型基座,经专项训练,构建行业针对性基座,融入客户高价值数据后,相关任务成功率从 70% 提升至 95% 以上。在机器人移动与操作方法上,采用合成与真实数据结合策略,以客户需求为导向,依托底层大模型,结合行业具身模型和具身泛化大模型,实现全流程闭环。提出大脑、小脑、本体分层式具身智能架构体系,通用大模型负责任务理解规划,具身大模型负责感知与决策。商业模式上,短期内聚焦于实际客户场景,实现端云协同、软硬件一体化,强调 “robot and service” 模式,打造 “一脑多型” 机器人解决方案,推动从局部通用向完全通用发展。同时开展基于世界模型的具身智能关键技术研究,虽然模型面临自适应、泛化能力不足及数据不匹配等问题,但通过以机器人基础运营服务为切入点,结合多模态大模型、“一脑多型” 本体及真实场景数据进行探索。

多模态大模型近年来不仅在各行业实现 agent 级应用,在机器人领域更是关键,让实用型机器人走进各行各业甚至千家万户成为可能。未来将以场景驱动激发数据效应,形成数据小飞轮,最终实现机器人的 AGI。不过,具身智能发展仍面临诸多挑战,包括掌握世界知识规律以获得通用泛化能力、构建通用智能体机器人评价标准、解决具身模型数据缺失及泛化能力不足问题、构建自主性任务执行能力,以及解决大模型带来的价值观和幻觉问题等。总体而言,未来 10 至 15 年,具身智能与高端制造、机器人、人工智能的融合,将成为我国关键发展赛道和极具投资价值的领域。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。

pic10