小鹏汽车能否录音,小鹏P5汽车有录音功能吗

tamoadmin 2024年05月19日 13:09 0

小车里有录音吗
小鹏汽车语音指令不应答

前言：在当前的汽车市场，20万是一个比较热门的价位区间，在这里有A级车的顶配，也有B级车，还有一些大幅降价优惠的B+级别车型，甚至还能看看豪华品牌的入门版本，可以说只要你想，基本都能找到适合你的车型。

刚刚过完27岁生日的我，手里的买车预算也是20W左右，这意味着可选的车型很多，不过对我这样的选择纠结症而言并不是个好消息。于是，自打确定了要买车的那时起，我就在网上留意着各大品牌新车的消息，偶然间，我看到了小鹏P5的信息，车内大床实在吸引我。而另一边，我的朋友劝我买BBA，说是开出去有面子。没办法，我就只能将两辆车拉到一起比试一下。

科技基因加持，打造独特智能美学

单看外观，奥迪A3L明显更加符合年轻人的审美，当然我承认，这里有一部分“豪华滤镜”。贯穿式的腰线很有力量感，车灯也很炫，运动风十足，这些设计元素在燃油车上十分少见。与奥迪A3L相比，小鹏P5就没有那么惊艳，整个车身以圆润为主，比较偏向家用。圆润曲面与几何形状的碰撞与融合，反倒比较符合中国人特有的内敛与优雅的特点。细节之处，小鹏P5还搭配融入了品牌“X”元素的分段式一体化大灯，以及智能交互灯语，将新势力的DNA展现得淋漓极致。

（图片来源网络，侵删）

智能化比拼，满配是关键

当然，对于出生在智能时代的90后而言，我还对汽车的智能属性比较看中，那么奥迪A3L和小鹏P5都是怎么做的呢？

先来看看奥迪A3L，车内搭载了一块10.1英寸的中控屏，搭配MMI信息***系统可以实现一些基本的操作。不过一些常用的功能，比如防溜车***藏在***菜单，使用起来还是很不方便，这也应该是奥迪A3L保留大多数实体按键的原因。

智能驾辅方面可以说是奥迪A3L的短板，毕竟是入门级车型，智能配置比较简单，一些常用的功能如并线***系统、360度全景影像、倒车车侧预警系统、智能泊车等需要额外加钱选装，这也就算了，车道保持***、道路交通标识识别干脆直接缺席，这也许就是BBA入门款的宿命吧，毕竟里子与面子不能兼得。

出身造车新势力阵营的小鹏P5，对智能颇有研究，坐进小鹏P5的车内，映入眼帘的就是15.6英寸的中控***大屏，搭配算力领先的SA8155P芯片，逻辑简单好上手，内置车载游戏、车载K歌、优酷、B站等应用，这哪是大屏，这不就是车载平板吗？令我最喜欢的就是小鹏P5的全场景语音功能，只要是大屏幕中有的功能，都可以用语音进行操作，还能够进行“将车窗开启40%”这样的高难操作，十分人性化。如果要是对奥迪A3L说出这样复杂的指令，回应我的只有沉默。

智能驾辅也是小鹏P5的一大杀手锏，别看它才20W，但该有的配置一个也不缺，并线***系统、360度全景影像、倒车车侧预警系统、车道保持***、道路交通标识识别、智能泊车等功能都有配备。如果是小鹏P5的P版车型还能实现城市NGP功能，可在未来逐步开放城市道路下的智能驾驶***，实现红绿灯路口通行、环岛通行等操作，真不愧是造车新势力，就是会玩！

空间对垒，车内大床太加分

看到这里，奥迪A3L似乎只有颜值占优势，别急，它在空间表现上也很有诚意。相比较老款A3，新款轴距多加了50mm，达到了2680mm，前后排空间都得到了不错的提升。

一米七的我坐进去，前排头部有效空间1拳3指左右，后排头部空间1拳，后排腿部空间两拳多一点点，对我来说也算得上宽裕。不过和全家一起出游的时候，后排的人就有些吃不消了。行李箱容积是388L，乍一看有些小，但它支持座椅比例放倒，拓展了后备厢空间，日常装载应该不在话下。

既然是定位家用车，小鹏P5自然也是将空间作为了重要卖点来打造，从尺寸上来说，整体比奥迪A3L大了不止一圈。我坐下后，前排头部空间一拳，后排头部有效空间达到1拳2指，腿部空间接近4拳，这样的宽敞空间让人舒适度拉满，坐下一家五口不是问题。后备箱空间是450L，虽不支持后排放倒，但放下五个20寸行李箱也是够用。

然而，小鹏P5似乎不满足于此，它还实现了空间布局新花样——车内大床，这也是小鹏P5一开始吸引我的点。前排放倒后，可以搭起一张床，无论是午睡还是长途时短暂小憩都是可以的，再搭配45英寸车载幕布，就能秒变***，极大拓展了车上生活场景，让我知道，原来汽车还可以这样~

用车成本PK，省钱才是真

除了产品力，汽车的用车成本也是我关注的重点，毕竟这车今后是我开，养不起可就尴尬了。没有调查就没有发言权，我为此查了不少资料，下面我就从保养、保险、油耗三方面，分析一波小鹏P5和奥迪A3L的用车成本。

以四年7万公里为例，奥迪A3L四年要经历6次小保，3次大保，保养费用1.6W；25岁以上的用户汽车保险一年6000元，四年就是2.4W；油耗方面，我们按百公里8L来算，7万公里的油费是3.92W。

小鹏P5是纯电车，没有发动机和变速箱，不需要机油、三滤、皮带等常规保养，四年下来2000元足够；保险费比燃油车贵20%，四年2.88W；在用车成本上，小鹏P5百公里耗电是13度，家用充电桩0.5元/度，四年的电费1.12W。

总共算下来，奥迪A3L四年共花在用车上的费用是79200元，小鹏P5总共35350元，二者四年相差四万多，这还不算上牌费、购置税等费用。可见纯电汽车的省钱，不是说说而已。

通过奥迪A3L和小鹏P5的对比，我们可以知道，在智能、空间、使用成本几个方面来看，小鹏P5都有着明显的优势，也更加符合我的需求，相比外在我还是更喜欢“有内涵”的小鹏P5。至此，我人生第一辆车就成功拍板，待后续新车到手我再给大家更新用车体验~

本文来自易车号作者十三先生Studio，版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点，与易车无关

小车里有录音吗

机动车的一般是没有录音功能的。

一般的车子没有自带录音的功能的，你如果需要的话可以后期进行加装的。

有的车子行车记录仪有录音功能，但是有利有弊，录音功能既有利也有弊。1利是能够记录汽车行驶全过程的***图像和录音，可以为交通事故提供比单单有***而无声音更为有利的证据。弊是车辆是个比较秘密的空间，打开了行车记录仪的录音功能会记录下平时谈话的内容，会暴露个人隐私。

2、一般情况下，行车记录仪的录音功能默认打开。如果不需要，可在设置中将录音功能关掉。有些行车记录仪有一键静音按键，可直接通过按键关掉录音。而如果在查看***回放时，想要删掉行车记录仪的声音，那么就需要借助***剪辑软件才可以，如果直接删除会将整个***删除。

小鹏汽车语音指令不应答

没有。

这个汽车一般是没有录音功能的，除非是功能支持，具体还是要看车型的。

小车由动力驱动，具有4个或4个以上车轮的非轨道承载的车辆，主要用于：载运人员和（或）货物；牵引载运人员和（或）货物的车辆；特殊用途。

第一个是唤醒速度快，也就是说完“你好小P”后可以秒响应，被称为极速唤醒。但是***中有信息提到极速唤醒的延迟是700ms，从数字看这个指标不好，当前稍微好一点的车载语音产品基本都能达到这个要求。11月17号关于小鹏语音的官方推文中从语音结束到界面动画小于300ms，希望之后能实车体验确认一下。

第二个是指语音指令响应速度快，是指从用户说完话之后到小P开始执行指令的时间。从***的对比中可以发现，当前的极速版本把语控响应延迟从原来的1.5s缩减到0.9s左右。对于车载语音产品，0.9s是一个比较优的数字。当前的车载语音产品一般就是1.5s左右，好一点的可以做到1.2s。

除此之外每个***中都强调了多意图指令理解的能力，不过这个是P7的已有功能。体验比较好的一点是目前针对多意图指令的TTS回复也是综合答复，不是逐条播报每个指令执行情况。

全时对话

打开全时对话开关后，小P会进行持续收音，任何时候都不需要唤醒（不用喊你好小P），就可直接说出指令并执行。目前只支持部分指令，猜测主要是车控类的指令。在全时对话的过程中，对于不支持的指令车机不会响应，但是用户可以5s内补充说一个“小p”，这样小p就可以把刚才不支持的指令识别出来并执行。通过这个产品设计很巧妙的解决了全时对话只支持部分领域引入的体验割裂问题，并且只需要说“小p”而不是“你好小p”。个人认为这是此次G9最出彩的功能更新。就像你让人帮忙做事情，如果他没动，可以在喊一下他的名字，把“你好小p”缩短为“小p”两个字也更加自然。

在***展示中，可以看到G9上联合oneshot的交互方式，将“你好小p”的四字唤醒词缩减为“小p”两个字，实现了唤醒词字数减倍的巨大进步。当前两个字的唤醒词技术非常不成熟，单独使用会引入大量的误报，将其和指令连在一起以oneshot的形式推出两个字唤醒词，很好的缓解了这个问题。两个字的唤醒词相比于四个字更加自然使用也更加方便，一定程度上可以缓解唤醒词给用户带来的尴尬。百度智能健身镜上也应用了该设计，据说苹果也将***用该设计将“hi siri”缩短为“siri”。

打开全时对话开关后，默认只支持主驾的全时对话。此处小P的眼睛动画有变动，可以看出产品设计细节，用户体验比较好。

多人对话

同时打开多人对话和全时对话后，四个位置都可以使用全时对话功能，并且四个位置的用户可以交替说或者同时说，不会相互干扰，满足多人对话需求。

G9上实现了跨音区多轮对话，不同的音区使用同一个多轮状态进行维护，主驾说完“打开座椅加热”，副驾只需要说“我也要”就可以打开副驾的座椅加热。主要是针对音区绑定相关功能点进行的多轮对话继承优化。

四个位置asr的结果分别在四个角的位置显示并且会在屏幕上会展示回复内容，并且会锁定音区回复（有时不会进行TTS回复）。在***中强调了此处一些产品细节的设计。

图2 四路全时对话屏幕展示

功能分析

极速对话

简单来讲，语音交互技术的永恒追求可以浓缩为两个字：快和准。快且准的语音交互技术是打造出真正让用户满意的语音交互产品的必要条件。极速对话的目标就是实现语音交互的“快”。

图3 语音交互数据流图

图3展示了从用户说话到车机执行并给出的答复的一个简化流程。**部分的录音模块是负责数据***集，蓝色部分是对***集到的语音数据进行处理来理解用户的意图，紫色部分是根据理解的指令回答用户，橙色部分是车机执行。一般意义上讲，用户感受到语音速度快就是从录音到指令执行的这段时间，这其中涉及到硬件、算法等多个模块。事实上一个完整的语音交互产品内部的模块以及交互逻辑要远比此处展示的复杂的多。对于如何优化语音交互速度，可以从以下三个方面进行分析：交互链路，算法，系统与硬件。

1、交互链路

交互链路优化是指在交互逻辑设计时缩短数据的传输路径或者优化数据的传输速度，使得的反馈结果更快的流向用户。可能的方案包括：

使用离线方案，优化离在线融合的逻辑。

***用流式处理，减少各个算法模块的绝对等待时间。

算法模块的并行处理，找出实现数据传递的最短路径。

算法模块合并，缩短数据传递的链路。

2、算法

语音交互技术的链条中包含了很多模块，试想如果每个算法模块都有几十毫秒的延迟，可能累积起来大几百毫秒就没了。因此要提升语音交互速度，各个算法模块的优化打磨是必不可少的。对于做产品落地的算法工程师而言，每个人面临的终极问题就是：怎么精简算法可以在不降低算法性能、不增加算力（CPU/NPU）占用的条件下尽可能的提升速度。成为一个带着镣铐在刀尖上翻腾的舞者，这可能是对做产品的算法工程师的最高要求。算法模块的优化不仅与产品体验息息相关，而且精简的算法可以直接降低硬件的成本。在语音技术链条中，对语音交互速度有直观影响的几个模块有：

信号处理：包含aec、分离、降噪三个核心算模块，此外还会有音区定位、人声隔离等。

VAD：VAD算法本身的延迟一般比较小，核心在后处理策略方面会造成比较大的延迟，这个和产品设计有关，需要在延迟小和其他体验方面做tradeoff。

ASR：引入延迟的部分包括模型打分需要累积的数据、对未来信息的依赖、CTC等算法的尖峰后移、剪枝搜索策略等。

3、系统和硬件

硬件是基础，系统是支撑。一个流畅的底层系统是优秀的软件产品的必要条件。语音交互系统不仅依赖硬件和系统，其本身也要对车身硬件或者系统进行控制。如果车机系统本身就容易卡顿，语音交互算法优化的再好也没有用。影响到语音交互体验的硬件和系统包括：

录音硬件和录音驱动

语音相关进程的优先级以系统***分配策略

控制车身硬件的响应速度

车机系统的响应速度

G9的极速对话功能将语控延迟从1.5s降低到了0.9s左右。能做到如此大的提升，各个体验***中强调的两点原因是：

将云端语音方案替换成离在线融合的方案，去掉云端方案中数据上传和下载的流程，从而缩短交互时间。

支持流式理解，ASR和NLU可以并行处理，缩短NLU的等待时间。

但是现在都是5G时代了，网络延迟真的会这么大吗？抱着怀疑的态度，笔者根据体验***做了详细的分析，从语音结束到第一个字上屏、语音结束到全部识别结果上屏、识别结果到车机开始响应这三个关键时间段的数据统计来看，得到了如下结论：

极速对话中，识别结果提前了0.15s但是首字上屏结果却变慢了此处的提升大概率和离线的asr算法方案有关，网络延迟在里边占的比重比较小。

极速对话的巨大提升大概率来源于vad后处理策略改进和流式理解的离线NLU算法的改进。

因为网上的体验***会有后期处理，可能与真实体验会有差异。因此之后会根据实车体验再做一次分析校正。对速度优化感兴趣的同学可以跳转的附录查看分析过程。

全时对话

全时对话是一种颠覆性的交互方式，打破了自iphone 4s 推出siri以来语音交互系统必带唤醒词的传统。根据语音交互逻辑的发展，可以从两个方向推导出全时对话的演化方式，其本质都是为了提升交互效率，让人机语音交互更自然更便捷，更符合人与人的对话逻辑。

图4 全时对话演进图

众所周知，唤醒词相当于语音系统的开关，打开则开始录音，关闭则停止录音。全时对话中去掉了唤醒词，语音识别系统就要做到一直进行收音。在失去开关的控制后，意味着语音交互系统的隐私性、安全性等会受到更多的关注。为了做好全时对话功能，必须做好以下几个方面：

1、***用离线语音方案

离线语音方案具有以下优势：

数据全部在本地处理，保护用户隐私。此处的数据不仅仅是包含生物特征的语音数据，语音识别出的文本内容中也包含了大量的用户隐私。

数据不需要上传云端，节省流量费用。

所有工作在本地完成，节省云端服务的成本。

G9上精心打磨的离线语音方案为实现全时对话功能提供了可行性。

2、做好人声分离和隔离

人声分离的目标是把目标人和其他人声分离开，人声隔离的目标是剔除非目标人声，只把目标人声送入语音识别引擎进行识别。G9上***用的是分布式四麦克风的硬件配置，从硬件上降低了人声分离和人声隔离的难度。但是算法上依然要努力做好这两方面，尤其是要做好目标位置不说话其他位置说话时的漏音问题。

3、做好误报控制

误报控制是全时对话中最难的也是最关键的部分，直接决定了全时对话功能的用户体验。做语音的同学应该都知道语音唤醒也有误报，每个语音唤醒从业者要解的80%的badcase可能都是误报的优化。全时对话的误报和语音唤醒的误报本质上都是不该被响应的语音被车机系统错误的响应了。但是全时对话的误报又和唤醒的误报有明显的不同。首先，误报对用户的影响不同。唤醒词仅是一个开关，发生误报的时候无非就是小P应答了一声并且转头看看你。但是全时对话中每一句话都是有实际动作的语控指令。试想你下雨天开着车正在和老婆打电话说路上堵车了晚点到家，这时候天窗莫名其妙的打开了。此时的你会不会口吐芬芳，如果你知道是全时对话作祟肯定会立马关了不会在打开了，如果你不知道是全时对话误报了，第一次可能莫名其妙，第二次估计就会开到4S店要求检修了。其次，误报发生的频率和控制的难度不同。唤醒词是确定的4个字，目标相对确定，但是依然非常难把误报控制做好，只有一个确定的词都这么难做，更何况全时对话中的数百个功能点，数千种说法。这种误报其实在现在的延迟聆听中也会存在，只不过因为延迟聆听一般只有几十秒，误报的可能性在时间维度上被大大的压缩。全时对话的误报可以分为两类。第一类是因为算法识别错误导致得指令误识别，比如asr把无关的语音识别成了有效指令，或者nlu把无关的文本解析成有效指令。解决该类的最好的方法就是无限提升算法性能，还有就是通过一些策略对这些错误指令进行检测屏蔽。第二类问题是人机对话和***对话的区分。比如你在和朋友聊天的过程中提到的某一句话本身就属于一条可以触发车机动作的指令，但实际上你是在和朋友聊天而不是向车机下达指令。该类问题估计是全时对话中最难解决的问题。

4、避免用户体验的割裂感

从安全设计以及当前技术的成熟度出发，很长一段时间内全时对话支持的功能点只是全部语音功能点的子集，这会造成用户的学习成本上升，因为用户是不知道哪些功能支持哪些功能不支持的，会造成用户体验的割裂感。笔者认为小鹏G9对这个问题的处理非常好，小鹏的产品和工程师们使用后置唤醒的方式很优雅的解决了这个问题。个人猜测后置的“小p”应该是使用asr实现的而不是做了一个专门的两字的唤醒系统。目前了解到除了G9以外还有两款车支持全时对话。第一款是吉利的星越L，在系统里被设置为极客模式，打开后可以使用全时对话。但是这款的车的体验非常糟，基本上属于无法使用状态，因为一旦打开后，随便说一些话就会触发语音功能。第二款是奇瑞瑞虎8 pro，在系统中默认上线了全时对话功能，在该车宣传中称为全时免唤醒功能。该方案是由地平线提供，是业界第一款的基于全离线方案打造的全时对话系统，也是目前市面上体验最好的。希望早日体验到G9的全时对话功能，也希望G9能够后来居上，进一步推动全时对话功能的发展。

多人对话

G9中的多人对话功能主要有两点：一个是不同位置的人可以同时使用语音，相互独立互不干扰；第二个不同位置的人的对话可以相互继承。从技术上讲，多人对话相对于极速对话和全时对话会简单一些。

1、多人并行使用功能

要实现多人并行使用功能需要做好两点。第一点是强大的信号处理功能，特别是人声分离和人声隔离的能力，目前基于分布式四麦的前端信号方案相对比较成熟，有比较好的解决方案，但是也存在一些困难场景需要继续突破。第二点是算力大，能够支撑4路语音交互系统的并发，核心是4路asr和4路nlu的并发。

2、多人多轮对话功能

该功能的核心是做好多音区内多轮状态的继承，属于对话管理的范畴，业内也有比较好的解决方案。

总结

根据体验***，笔者总结了G9上两种交互逻辑。（只是个人猜想）

图5 以“你好小P”发起的语音交互内部算法模块逻辑示意图

图6 全时对话语音交互内部算法模块逻辑示意图

小鹏P7的上市将车载语音助手推向了一个新的高度，成为众多车厂对标追逐的对象。希望G9能够将车载语音推向一个新的高度，给用户带来更多的便利，也给众多的语音从业者创造更多的机会和发展空间。最后希望能早日体验到G9的全部功能。

附录：延迟分析

在体验***中，笔者选取了一个“打开车窗”的例子，通过分析录像视屏的方式，对比语音和***中文字上屏状态以及指令执行状态，整理分析出了各个关键***的时间点。

图2-1 关闭极速对话，各个关键时间的时间点

图2-2 打开极速对话，各个关键***的时间点

根据识别结果上屏***可粗略的把语音交互的延迟分为两个TD1和TD2两个部分，每部分的详细定义和说明可以参考表格。此外因为语音结果实时上屏也会影响到用户的感受，因此把语音结束到第一个字显示到屏幕上记为TD3。

名称模块说明包含模块分析关闭极速对话打开极速对话（提升比例）

TD1 识别结果上屏延迟从语音结束到屏幕上显示出完整指令文字的时间 1.录音延迟；2.前端信号处理延迟；3.vad算法延迟；4. 数据网络传输延迟（云端方案）；5. asr算法延迟。 0.608s （9.732s ~ 10.340s） 0.467s（23.2%）（21.0s ~ 21.467s）

TD2 从文本到指令执行的延迟从屏幕上显示完整指令文字到车机开始执行的时间 1. vad策略延迟；2.nlu算法延迟；3.指令解译、硬件启动等系统延迟。 0.947s （10.340s ~ 11.287s） 0.407s（57.0%）（21.467s ~ 21.874s）

TD3 识别结果首字延迟从语音结束到第一个指令文字上屏的时间 1.录音延迟；2.前端信号处理延迟；3.vad算法延迟（数据积累延迟）；4.数据网络传输延迟（云端方案）；5. asr算法延迟。 0.335s （9.732s~10.067s） 0.367s（-9.5%）（21.0s ~ 21.367s）

注：只是使用一条语音的参考意义一般，还需要一定的数据来证明有效性。根据统计结果对极速对话中速度提升原因进行推测：

模块极速对话中是否会有优化说明

录音延迟录音偏底层，打开极速对话前后应该没有变化

信号处理延迟信号处理本身就是运行在端侧，估计没有变化

vad算法延迟 vad算法本身就是运行在端侧，估计没有变化 vad模型打分数据积累、对未来信息的依赖等

asr延迟会有变化，TD1的提升大概率是和离线ASR算法方案有关。一方面是模型层面的优化，另一方面是本身搜索空间小，解码速度会快。 asr模型打分数据积累、对未来信息的依赖、解码延迟、ctc尖峰后移等

网络传输延迟根据TD3的结果，感觉影响不大云端方案中语音数据上传和识别结果下发

vad后处理策略延迟影响比较大。 vad后处理一般会根据算法输出向后扩展一定时间，方式语控指令的提前截断

nlu算法延迟针对“打开车窗”的指令，理论上不论云端还是端侧大概率的规则引擎实现，理论上二者在速度上的差异应该影响很小。结合流式语义理解会有提升

指令解译、硬件启动等系统延迟不会有变化，硬件、系统层面不会有差异

传统的语音交互流程中为了保证语音识别不被提前截断（比如用户说话停顿、或者vad算法不鲁棒等）会在vad的算法输出后添加后处理策略，一般会在算法输出的基础上向后扩展一定的时间，这就会在很多场景下引入大量的延迟。如下图所示，虽然在t3时刻虽然拿到了完整的识别结果，但是由于vad段没有解码完成就不会送给nlu进行文本解析，直到t4时刻才会将asr结果给到nlu进行解析。引入流式语义理解后，asr的识别文本实时送给nlu进行解析，在t7时刻就可拿到nlu的解析结果，无论是继续等到t4时刻进行结果确认还是直接只用t7时刻的结果都会大幅度降低延迟。其实有意思的一点是，不打开极速语音时，从t3到t6时刻竟然用了0.947s，***设系统的vad后处理向后扩展了0.6s，硬件执行消耗0.1s，那nlu部分居然消耗了0.247s，针对“打开车窗”的这条如此简单的指令感觉很不可思议。只能说提升巨大全靠上一代衬托。

本文地址：https://www.kfmdiabc.com/post/10294.html

标签： #语音