每一个科技时代,都有自己的“入口”和“推动者”。
PC时代,浏览器、搜索引擎是主要入口,用户通过键盘、鼠标进行交互;移动互联网时代,APP、应用商店成为典型入口,用户通过手指、触摸屏进入互联网世界;而当前的AI时代,业界语音交互已被视为重要入口,语音交互提供了更加丰富、自然、便捷的交互体验。
纵观历史,每一个抢占入口、推动时代发展的企业,都能够反过来掌握竞争主动权,获得长期发展的动力,比如PC时代的谷歌,比如移动互联网时代的苹果。
因此,如今很多大公司都围绕语音交互进行深度布局,试图抢占AI时代的战略地位。其中,无论在海外还是国内,科大讯飞和讯飞科技已经成为最受关注的两家公司。
今年 5 月,GPT-4o 发布,展现了更强大的语音交互能力。比如更快的响应速度、更自然的声音等等。但遗憾的是,GPT-4o 尚未对国内用户开放,大多数人无法亲身体验其中的丰富体验。
很多人不知道的是,中国的科大讯飞不仅实现了媲美GPT-4o的语音交互体验,还让人们抢先体验了。
今年8月19日,讯飞发布Spark极速人形交互技术,在响应与打断速度、情感感知与共鸣、语音可控表达、人物角色扮演四个方面取得重大突破,并将于今年8月底在讯飞Spark App上正式开放,普通用户即可亲身体验。
在近日举行的科大讯飞2024上半年业绩发布会上,一点财经观察到,科大讯飞董事长蒋涛亲自演示了Spark 超拟人交互技术,让现场观众更直观地看到这项技术的操作体验。
不得不说,科大讯飞虽然在研发上投入了巨资,但宣传力度不够,事实上这项技术能够对行业变革产生深远影响,同时,科大讯飞也在积累技术潜力,将释放出强劲的发展动能。
语音交互的“理想”与“现实”
2014年一部讲述人类与人工智能爱情的电影《她》大获成功,并获得奥斯卡最佳原创剧本奖。
电影中,男主角西奥多的工作是为不善于表达感情的人写情书,他拥有一个声控设备,可以直接输入信件内容、打印等,日常生活中,他还可以通过语音听歌、接收邮件和新闻。
让不少观众浮想联翩的是,西奥多遇到了一个名为“萨曼莎”的AI机器人,她声音温暖,不仅十分体贴,还十分理解西奥多。影片中,西奥多陷入了爱河,开始了一段“人机恋”。
十多年来,这部电影中的科幻场景不断照进现实,各类语音交互产品和技术不断迭代,丰富了用户的语音交互体验。
但很多用户还是觉得体验没有想象中的那么好,因为目前市面上的语音交互技术存在着响应速度慢、难以共情、缺乏个性化、端点检测困难等常见痛点。
总之,很多语音交互技术还过于机器化,缺乏拟人化,没有提供足够的情感价值,不仅导致用户体验不佳,也阻碍了行业的发展。如何解决痛点,成为行业发展的驱动力。
目前,科大讯飞是重要推动者,其推出的Spark Speed超拟人交互技术从“响应与打断速度、情绪感知与情感共鸣、语音可控表情、角色角色扮演”四个方面大幅提升了用户体验,总结起来就是:
它不仅反应迅速,而且具有情感温暖,能够提供更多的情感价值。
1.响应速度
在语音交互过程中,用户希望能得到更快的响应,达到“叫到就来”的效果,并且在中途频繁被打断的情况下,希望能再次快速响应。
但目前主流的语音交互应用中,从用户提出问题到应用做出响应通常需要2-2.5秒的时间,可以明显感觉到停顿,中途被打断后,响应时间就更长了,影响了用户的交互节奏和智能体验。
Spark Speed超拟人交互技术带给人的第一感受就是“快”,它将响应时间缩短至0.9秒,几乎感觉不到停顿,此外用户可以随时打断、插话,它依然能够做到快速响应。
这意味着通过Spark超快的超拟人交互技术,用户可以获得更贴近日常对话的逼真体验。
2.情绪温度
在语音交互过程中,如果响应及时,但回复的却是冷冰冰的话语,用户交互的欲望和积极性必然会降低,因为谁也不愿意面对一个没有温度的机器。
传统基于命令的语音技术只能对某些特定的发音做出反应,缺乏感知情绪的能力,但 Spark 的超快超人交互技术对此进行了显著改善,不仅能根据语音判断用户的情绪,包括快乐、悲伤、愤怒、恐惧等,还能识别咳嗽、宠物叫声等非语言信号,与用户产生更深层次的情感共鸣。
如果只能辨别情绪,却不能做出情感回应,用户的感知不会很明显。Spark超快超人交互技术在表达上更加灵活,可以根据用户指令控制几十种情绪、风格、方言,甚至可以自动调整语速、语调和情绪,让对话更加温暖、动人。
此外,Spark超快人机交互的另一大优势就是“选择角色”功能,支持多种角色设定的任意切换,用户可以与孙悟空、蜡笔小新、小猪佩奇等角色进行互动,感受不同角色对话的乐趣。
可以说,之前的语音交互技术更像是机器的体验,而Spark超快的超人性化交互则更像是人,大大提升了用户体验。这一进化的背后,是科大讯飞长期的技术研发与积累。
语音交互进化:技术才是必由之路
语音交互的演进史,就是一部技术迭代的历史。
最早的语音交互技术可以追溯到20世纪60年代,当时的语音交互技术主要是基于规则的,即根据语法等规则对语音进行分析、生成,然后按照设定的句子进行回应。
这种方法智能化和灵活性较低,只能完成某些特定的任务,比如查天气、订票等,无法执行稍微复杂的指令。
20世纪90年代,语音交互技术进入了基于统计模型的新阶段,这种方法不再依赖固定的规则,而是利用概率论建立交互模型,根据上下文生成最合适的响应,可以处理更多的指令,适应不同的场景需求。
2006年,随着深度学习技术的兴起,语音交互技术有了质的飞跃,可以自动学习语音信号的复杂特征,从而进入DNN(深度神经网络)时代,例如RNN(循环神经网络)就是一种处理序列数据的神经网络,具有长期记忆性,可以用来处理连续的语音特征,从而提高识别准确率。
此后语音交互技术不断演进,如CNN(卷积神经网络)、DFCNN(深度全序列卷积神经网络)等,用户体验也不断升级,在技术演进的浪潮中,科大讯飞始终站在最前线,站在浪潮的浪尖。
早在2012年,科大讯飞就在讯飞输入法及语音开放平台上推出了BN-HMM和NDD-HMM两大深度学习解决方案,成为国内首家推出深度学习语音识别商用系统的机构,将语音识别场景准确率由原来的60%提升到88%左右。
截至目前,Spark极速超人交互采用统一神经网络直接实现端到端的语音建模,这是已经被证明更为强大的技术方案。
因为传统的语音识别系统一般由多个模块组成,包括声学模型、语言模型、发音词典等,而端到端建模则是将这些模块合二为一,实现了从原始语音信号到最终文本的直接映射,为语音交互带来了很多提升。
首先,端到端建模简化了传统语音识别系统的复杂性,降低了模块集成的难度;其次,可以更好地处理语音信号中的噪声和变化,提高系统的鲁棒性,即抵抗外界干扰和保持稳定性的能力。此外,还拥有更快的训练和推理速度,适合实时场景。
Spark极速超人交互背后的技术优势,源于科大讯飞在研发上的持续投入和积累。
据科大讯飞最新发布的2024年上半年财报显示,报告期内其营收为93.25亿元,较上年同期增长18.91%,值得注意的是,公司研发投入为21.9亿元,同比增长32.23%,占营收比重为1.3%,研发投入占比达到23.5%。
在企业发展的因素中,营销、宣传等表面因素属于“快变量”,短期内能起到暂时的作用,但同时也具有不稳定性,门槛较低。
更深层次的是“慢变量”,比如技术、研发等,它们前期需要大量投入,就像推动一个静止的轮子,投入到一定程度后,轮子会越转越快,从而形成“飞轮效应”,最终转化为优秀的技术和产品以及坚实的护城河。此次科大讯飞推出的Spark Speed超拟人交互技术就是一个典型的例子。有时候,“慢”其实也意味着“快”。
事实上,Spark超快超拟人交互技术背后的大模型能力同样具有巨大的想象空间。
展望未来:大模型重塑语音行业
如今,“大模式+”如同当年的“互联网+”,给了市场无限的想象空间。
大模型趋势下,很多行业都值得重塑,包括汽车、机器人、消费电子、家电等领域。在大模型落地方面,科大讯飞凭借Spark大模型实现了云边端一体化,软硬件一体化的全场景布局使其能够满足多种复杂场景对大模型的需求,从而收获多元的行业红利。
先说汽车领域,今年上半年,中国汽车产销分别达到1389.1万辆、1404.7万辆,依然稳居全球第一,出口总量达到348万辆,同比增长25%,火爆趋势依旧。出海前十家企业中,有八家与科大讯飞有合作。未来汽车趋势必然是智能化,大咖赋能可在智能座舱、智能驾驶等多个方面提升用户体验,助力中国汽车产业增长。
例如,自2011年科大讯飞率先完成车载语音本地化以来,车载语音已成为中国汽车市场的标配功能,但在海外仍局限于单一语言,今年Spark语音模型发布无需切换72种语言/方言,通过云边端、软硬一体化解决方案,可大幅提升智能座舱体验。此外,科大讯飞还基于Spark大模型开发了车载助手,可实时监控了解车辆状态,精准解答用户用车问题。
科大讯飞透露,公司汽车智能产品合作已覆盖90%以上中国主流自主品牌、合资品牌汽车厂商,最新财报显示,科大讯飞汽车业务也延续强劲增长势头,上半年营收35亿元,同比增长65.49%。
与汽车一样,机器人也是未来的一个重要趋势。
尤其是人形机器人前景十分可观,根据《人形机器人行业研究报告》预测,2024年中国人形机器人市场规模将达到约27.6亿元,2029年将达到750亿元,占全球比重将达到32.7%,位居全球第一。
大模型的思维链推理能力可以显著提高机器人对复杂任务的理解能力,提供常识性的任务分解与规划,特别是具身感知模型与具身决策模型的结合,可以进一步提升人形机器人在现实场景中的多模态感知理解能力。
在复杂任务拆解、开放场景物体识别、多模态感知理解等方面,Spark Big Model 显著提升了人形机器人的智能水平,在前不久的2024世界机器人大会上,科大讯飞公布了“大模型+”具身智能的人形机器人最新进展:
整体动作性能提升2倍,复杂任务拆卸成功率超过95%,交互能力和动作性能得到进一步提升。
在产业赋能方面,科大讯飞机器人超级大脑平台已赋能420家机器人企业,深度链接1.5万家机器人开发者,并与优必选、宇树科技、致远机器人、银河通用等人形机器人企业形成广泛合作,预计未来合作将具有充足的想象空间和强大的产业驱动力。
除了机器人之外,大屏化浪潮还正在蔓延至消费电子终端、家电产品领域。
包括智能手机、智能办公笔记本、学习机等消费电子终端规模非常庞大,《2024数字经济报告》显示,到2029年全球物联网设备数量将增至390亿台,每个终端都变得更加智能,提升了用户体验,创造了更大的市场空间,中商产业研究院预测2023年中国智能硬件市场规模将达到14031亿元,预计2024年将增至15033亿元。
以讯飞智能办公本X3为例,其搭载了最新的讯飞Spark智能技术,实现了语音转文字、智能笔记整理、多语言翻译等高效办公功能,用户只需简单操作就能将会议内容转为文字,演讲要点等语音信息实时转化为文字记录。这不仅大大提升了用户工作效率,也助力了讯飞智能硬件业务的增长。根据最新发布的2024年半年报,讯飞智能硬件业务实现营业额13亿元,营收9亿元,同比增长56.61%,远超行业平均水平。
随着新一轮以旧换新热潮的到来,家电市场也迎来新的市场增长点,家电与大机型的结合,能为用户打造更加智能的家居生活,也为家电厂商和技术提供商带来新的增长点。
例如,搭载讯飞Spark认知模型的电视语音助手将升级为全能型家庭中心,可以轻松处理日程管理、智能家居控制等操作,还可以让孩子直接与电视语音助手交流,练习说话、获取知识等,打造新的教育场景。三星结合讯飞Spark认知大模型的能力,让电视语音助手具备深度学习理解、内容生成、知识问答等能力,大幅提升用户体验。
如今,Spark Big Model 正在成为教育、医疗、能源、汽车、家电、机器人等多个重要领域的落地首选,不仅为AI时代的入口探索更多可能,更结合实际场景落地应用,真正为用户带来技术红利、为企业创造经济效益,自身也获得发展动力。
结论
《底层逻辑》一书提出了“战略势能”的概念,形象地说,把一块石头举到更高的山顶上,就会储存势能,当石头滚下来的时候,势能就转化成了动能。
科大讯飞目前正在积聚战略势能,需要克服困难、进行大投入。随着各项技术的深入和落地,战略势能将不断转化为发展动力,其未来值得期待。
本站候鸟号已成立2年,主要围绕财经资讯类,分享日常的保险、基金、期货、理财、股票等资讯,帮助您成为一个优秀的财经爱好者。本站温馨提示:股市有风险,入市需谨慎。
暂无评论