2025年机器人+全息AR科幻成真,WiMi微美全息实现AI视觉交互
有多少人曾羡慕过《钢铁侠》、《机器公敌》、《星球大战》等科幻电影中出现的机器人及全息AR技术 —— 主角随意挥手、动作,眼前的虚拟影像即出现相应的变化。近年来智能、激光、3D等投影技术发展迅速,机器人人工智能领域的突破想象,我们对未来的人和机器又能有何预判呢?
众所周知,人工智能是模拟人类智能的技术,实现对人类智能的完全再现,是人工智能的终极目标。而人类智能是从人类的感官和认知开始的。所以,人类的感官往往成为研究人工智能的入手点,比如视觉。
对于人类而言,不仅可以通过眼睛“看清”周围环境中的东西,还能“识别并理解”这些东西,对这些东西形成“认知和决策”。现在,越来越多的AI领域的研究人员正努力让AI同样做到这一点。从人类的三维视觉出发,三维视觉智能已成为人工智能研究和应用的热门领域。
三维视觉智能的研究就是集合计算机图形学、计算机视觉等领域的技术与传统的人工智能、学习、大数据等很好地交叉融合。三维视觉技术的发展得益于视觉传感器的快速发展,已经在推动很多应用,比较有代表性的包括无人车、机器人,以及娱乐、影视等其它领域的应用。
作为AI时代的两个主要的入口,计算机视觉是AI行业最具商业化价值的赛道,智能语音产业即将进入爆发期。首先,计算机视觉在AI领域中应用场景最丰富,极具商业化价值。计算机视觉主要以图像和视频等高维、密集数据为主要处理对象,信息提取程度更深,应用场景更加丰富。目前,国内外均有40%以上的AI企业聚集计算机视觉领域,市场规模在所有领域中全球第二、中国第一,商业成熟度较高,2017年中国计算机视觉应用规模约为15.5亿元,预计17-22 CAGR超56%。其次,智能语音领域,根据Gartner 2018 AI技术成熟度曲线,语音识别、虚拟助理等相关智能语音技术历经淘洗已相对成熟,未来将推动产业走向爆发期,预计整个市场规模将从18年的75亿美元增长至24年的215亿美元,CAGR达19%。
计算机视觉是国内外AI企业最集中的领域,商业成熟度较高。从AI企业的应用技术方向分布来看,计算机视觉技术企业在全球AI企业中占比约40%,在国内占比约46%;无论国外还是国内,计算机视觉都是AI企业最集中的领域。从市场规模来看,2017年计算机视觉市场占全球AI市场总规模的16.9%,排在语音识别之后;而国内计算机视觉市场占AI市场的34.9%,排名第一。国内外计算机视觉的市场规模差异要远大于企业分布差异,说明国内计算机视觉公司的总体盈利能力较其他AI领域的公司较强,商业成熟度较高。
计算机视觉是AI领域应用场景最丰富、商业化价值最大的赛道。目前,AI技术处理的数据类型不外乎四类:文字、语音、图像和视频。从信息维度来看,从文字到视频维度是递增的,文字的信息维度最少、包含的信息量也最少,视频的信息维度最多、包含的信息量最大。反映在数据量占比上,以线上数据为例,根据Cisco的研究,到2022年全球线上视频流量占总流量的比例将从2017年的75%上升到82%,说明线上数据将越来越被视频数据所主导。
微美全息WIMI专注于计算机视觉全息云服务。微美全息覆盖从全息计算机视觉AI合成、全息视觉呈现、全息互动软件开发、全息AR线上及线下广告投放、全息ARSDK支付、5G全息通讯软件开发、全息人脸识别开发、全息AI换脸开发等全息AR技术的多个环节,是一家全息云综合技术方案提供商。其商业应用场景主要聚集在家用娱乐、光场影院、演艺系统、商业发布系统及广告展示系统等五大专业领域。
微美领先的全息AR内容制作功能围绕图像采集、对象识别、自动图像处理和计算机视觉技术而构建。微美的软件工程团队和可视化设计团队紧密合作,不断推进这些可视化相关技术,并利用它们设计和生产创新的全息AR内容。通过提供精确姿态估计的实时计算机视觉算法,能够在几秒钟内执行场景识别和跟踪。这种尖端算法还允许微美以像素为基础执行照片级真实高分辨率渲染的可视化。Frost&Sullivan表示,虽然大多数同行公司可能会识别并捕获特定空间单位内的40到50块图像数据,微美可以收集的数据块数量达到500到550;微美的图像处理速度比行业平均水平提高了80%,从而提高了运营效率。在场景重建过程中,微美的自动图像处理工具可以对最初拍摄的图像进行噪声清除和特征增强,从而能够创建具有业界领先模拟度的同类最佳全息AR设计。
全息3D人脸识别软件的开发基于微美的全息成像特征成像检测和识别技术、模板匹配全息成像检测技术,以及基于深度学习和训练的视频处理和识别技术。传统的2D面部识别技术是一种基于面部特征的识别技术,它从面部图像或面部视频流中捕获信息,并自动检测和跟踪目标面部;微美的全息3D面部识别技术是全息成像捕捉和3D肖像的结合的识别技术。微美专注于软件技术的开发和应用,并拥有AI、机器识别技术、机器学习、模型理论和视频成像处理技术。全息3D面部识别技术是一种利用结构光和红外光的集合技术,所收集的特征点可以超过30,000点;传统2D面部识别技术的收集特征点不到1000点。并且3D技术受到周围环境的影响较小,有望克服传统2D面部识别技术中发现的如光线、姿势、遮挡、动态识别和面部表情等许多问题。
信息维度更高加之数据量更大,因此以图像和视频为主要处理对象的计算机视觉要比以文字或语音为主要处理对象的其它AI技术具有更加丰富的应用场景和商业化价值。因此,当前资本市场也正以其资源配置、资产定价功能充分反映计算机视觉相对其它AI领域的优势。
通过三维视觉与人工智能技术的结合,可以让机器人更加智能化与功能化,让机器人做更多人在现实生活中能够做的事。机器人具备现场自主决策和执行的能力,比如在工业流水线上可以帮助组装配件,物流场景中搬箱子等。这样的应用,涉及到非常精细化的技术,比如准确高效的运动规划,还有各种各样的控制,智能的执行等。因此在这方面也有了些探索性的工作。人工智能大潮下,面向C端如何用低成本的硬件来培养用户习惯;面向B端和G端又如何提供更多附加价值或持续迭代价值,这些都是现在的AI人需要思考的问题。
根据IFR的报告,全球服务机器人市场规模预计2012-2017年年复合增长率将达到17.4%,2017年达到461.8亿美元。2016年4月,工信部、发改委、财政部联合印发《机器人产业发展规划(2016-2020年)》,规划要求,五年内形成我国自己较为完善的机器人产业体系。我们依此判断,到2020年,我国将形成完善的机器人产业体系,并逐步迈向中高端领域。未来,随着科学技术的发展,我们有望看到更多科幻中的技术,走到现实生活中来,造福于人类。
本文系作者授权本站发表,未经许可,不得转载。