陈启杰 任晓宁/文 11月18日,智能硬件初创公司Rokid发布了人工智能(AI)和增强现实(AR)眼镜产品Rokid。
Rokid的外形与普通眼镜类似,通过其摄像头支持高清摄影和视频录制功能。该产品还集成了阿里巴巴的统一钱文大模型,具有物体识别、文本翻译、数学解题等能力。
据经济观察网不完全统计,今年10月以来,已有小度、小米、Rokid、创业公司Saute 等至少四家国内厂商宣布或传言计划推出AI眼镜。这使得AI眼镜成为国内智能穿戴领域的新趋势。
小杜表示,公司之所以跨行业开发AI眼镜,是因为眼镜作为人的第一视设备,配备了摄像头、麦克风、传感器等部件,更进一步具备了捕捉多模态信息的能力。 ,成为高效便捷的人机交互入口。同时,大模型在多模态、强化学习、语音识别等能力上的进步,为AI重塑智能眼镜带来了更大的想象空间。
不过,致敬未知前产品经理王永森告诉经济观察网,对于业内人士来说,AR眼镜与大机型结合的技术门槛并不高,但要把AI眼镜做好却很难。当AI眼镜调用大模型时,如何低延迟准确理解用户的自然对话意图是目前的技术难点。
为什么选择AI眼镜
2023年9月,美国科技巨头Meta发布了与美国眼镜品牌Ray-Ban联合开发的AI眼镜Meta Ray-Ban。该产品起售价为299美元(约合人民币2167元),发布四个月后销量突破100万台。
该产品的热销验证了AI眼镜的可行性,也给了厂商进入该领域的信心。
Rokid工业设计总监夏凯认为,过去对于AI硬件领域的创新存在一些误区:比如APP能解决的功能就不应该变成硬件;如果C端(面向个人用户)产品的信息呈现比手机更初级、交互性更复杂,更容易失败,比如美国初创公司发布的智能硬件产品AI Pin。
因此,夏凯认为,AI硬件的创新可以从个人的基本日常生活功能开始。功能设置简单,按需使用。此类产品价格便宜,试错成本低。
夏凯告诉经济观察网,眼镜的优点是用户通常戴在头上。它们不需要像手机那样需要用户举手交互。交互是过去困扰AR眼镜厂商的一个问题,而大型号的出现解决了这个问题。大模型可以理解为一个搜索引擎,让用户使用AI眼镜能够更精准地获取信息。例如,当用户在商场购物时看到一件衣服时,他或她可以使用AI眼镜检索整个互联网上购买该产品的最佳价格和最佳方式,然后下订单。
不少AI眼镜用户告诉经济观察网,他们自己使用眼镜是因为近视或者需要佩戴配件。同时,他们也看重AI眼镜的拍照、通话、翻译、会议记录等功能。他们觉得这样的产品使用方便,可以部分替代手机的功能。
一位用户表示,她的公司是一家外企,但她的英语不好,所以更依赖AI眼镜的翻译功能。另一位用户表示,他购买AI眼镜主要是为了录制坐过山车等特定场景的视频。
如何与大型模型结合
致敬未知是国内最早开始研究AR眼镜与大模型结合的智能硬件初创公司之一。公司成立于2022年8月,2023年获得阿里巴巴领投的1000万美元(约7246万元)天使轮融资。其创始人吴德周曾担任锤子科技合伙人、华为荣耀产品线总裁。经理。
王永森曾担任致敬未知的产品经理,负责AR眼镜大模型场景的集成。他表示,《 to 》最初选择AR眼镜路线,是因为与虚拟现实(VR)这种脱离现实的场景相比,AR更接近现实。吴德周希望向未知致敬的产品能够贴合用户的现实,提供现实背后的数字信息。 AR眼镜与大模型结合后,用户可以用它来识别图像和物体。基于识别功能和数字信息系列,用户还可以比较价格、评价商店和进行团购。
在对比了一系列AR眼镜产品的交互设计后,致敬未知也得出了一个结论:AR眼镜应该特别注重任何交互和呈现,不应该影响用户的行走、行走等现实生活行为。下楼梯,聊天。
王永森表示,AR眼镜与大模型相结合的大致流程是:首先,研发人员对模型进行训练和筛选后,将图像分割模型、语音识别算法等小模型集成到AR眼镜中。这些小模型可以收集信息,是大模型了解世界的工具;其次,AR眼镜将采集到的图像或语音信息交给大模型,由大模型进行智能判断并生成结果;最后,AR眼镜将大模型产生的结果反馈到服务器和算法层面,整合互联网上的相关信息,打包呈现给用户。
AR眼镜结合大模型的成本与普通大模型应用的成本相似。除了后端工程师、算法工程师等人力成本投入外,硬件厂商在使用大模型时还需要按照代币(大模型文本中的基本单位)计费。王永森表示,很多AI眼镜厂商前期都会将使用大模型的成本垫付给大模型公司。
为了不影响用户的佩戴体验,各厂商都在致力于AI眼镜的轻量化,比如采用比钢、铝合金等传统材料更轻的镁铝合金,采用更轻、更薄的光波导等。显示模块。
目前市面上的AI眼镜重量基本保持在50克以内,而普通眼镜的重量为20-30克。
王永森表示,更好的处理器芯片、更多的摄像头和其他组件意味着AI眼镜将更重,更难以携带和佩戴。因此,为了满足人体工程学要求,制造商需要在AI眼镜的重量和计算能力之间找到平衡点。
仍存在技术瓶颈
目前,各厂商发布的AI眼镜的功能主要集中在问答、翻译、物体识别等场景。
不过,一位前扩展现实(XR,AR、VR等技术的统称)设备行业从业者告诉经济观察网,现在的AI眼镜都是音频眼镜,具备打电话、拍照、AR、等语音助手功能。而且,音频眼镜的门槛很低。制造商可以找到原始设计制造商(ODM)来生产OEM产品。
上述XR设备行业前从业者也表示,由于设备端芯片的性能问题,目前AI眼镜主要依靠大型云端模型来提供AI能力。此外,此类产品还需要解决连续运行带来的功耗高、发热、电池寿命短、网络延迟等一系列问题。
王永森表示,对于业内人士来说,AR眼镜与大机型结合的技术门槛并不高,但做好AI眼镜却很难。难点之一是AI眼镜在调用大模型时如何以低延迟准确理解用户的自然对话意图。人们会进行无序的自然对话,可能会一口气说十几句话或几件事,但大型模型需要理解这些话中的用户意图。
Rokid创始人朱明明此前表示,可穿戴眼镜的同质化竞争确实存在,但这是所有消费电子行业的必经阶段。就像手机行业一样,现在用户更换手机不仅仅是因为品牌,更是因为每部手机的打磨细节和生态体验不同。因此,可穿戴眼镜的核心竞争力最终将在于品牌竞争力、生态丰富度和产品细节。
朱明明认为,只有真正愿意钻研细节的企业才能在这个市场中生存和发展。最终,可穿戴眼镜行业将成为类似于手机行业的寡头垄断。相比手机行业5-6家主流厂商,可穿戴眼镜行业由于个性化需求旺盛,可能有10-20家主流厂商。
本站候鸟号已成立3年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论