从“嘿Siri”到“Siri”的一小步是苹果语音识别的一大步(嘿Siri嘿Siri)

数码推荐

“嗨,Siri,讲个笑话”。我相信,许多iPhone用户都曾尝试与苹果智能语音助手Siri通话,但在未来,当你与Siri聊天时,你可能不得不改变一个词。最近的一条消息显示,苹果计划将智能语音助手Siri的唤醒词从“嘿Siri”简化为“Siri”。这一变化预计将于2023年或2024年推出。与此同时,苹果正在将Siri集成到第三方应用程序中,为用户提供更多的上下文和帮助。作为苹果推出的智能语音助手,早在2011年就出现的Siri无疑是手机制造商在人工智能领域探索了十多年的代表之一。虽然苹果在未来只去掉了“嘿”一词,但在这一小小的变化背后,它代表着苹果人工智能技术的重大进步,也意味着苹果在智能语音助手领域已经赶超了竞争对手亚马逊,从“嘿Siri”到“Siri”,用户一直在抱怨“有点傻”和“不智能”,这反映出苹果在语音识别技术上取得了重大突破。就像每个人都有自己的名字一样,智能语音助手实际上需要特定的词语来让它知道用户在称呼自己

在某种程度上,唤醒词也是智能语音助手品牌形象的重要组成部分。通过每次激活语音助手时说出的唤醒语,消费者对品牌的记忆在日复一日的重复阅读中不断加强。

那么为什么智能语音助手需要唤醒词呢?这是因为智能语音助手不可能24小时在线。需要确保智能语音助手只能在用户需要时进入工作状态,使用特定的唤醒词来激活智能语音助手比触摸唤醒机制更适合,并且该特定段是唤醒字。一般来说,如果语音助手没有被手动禁用,后者将作为系统级服务长期留在后台。然而,作为一个需要大量AI计算能力的功能,智能语音助手在工作状态下需要不低的性能开销,同时,它也会增加功耗。面对这个问题,开发人员想出了一种方法,通过专用于语音唤醒的低功耗协处理器实时监控麦克风。一旦听到“嘿Siri”、“小爱同学”和“嘿谷歌”等关键唤醒词,语音助手将从睡眠状态切换到工作状态

这种策略的优势不仅在于减轻设备的续航压力,还可以避免一直在工作的语音助手。事实上,处理未发送到自身的音频信息的困难在于低功耗和用户的临时需求之间的矛盾。一个能有效唤醒语音助手而不会导致系统误判的唤醒词也是整个KWS机制的核心。这是由于汉语发音和音节之间的关系。你可以简单地将单词的数量理解为音节

为什么唤醒词通常是四个音节,而不是中国人更习惯的三个或两个音节?这是因为音节越短,错误唤醒的问题就越严重。然而,如果音节越长,它会从一个短语变成一个句子,这会降低用户的交流体验。同样,“Hey”作为英语语气词,就像中文语境中的“Hello”一样,是为了增加唤醒词的音节,以便系统能够更准确地判断谁在听语音,并且已经能够达到仅使用一个词来判断用户意图的水平。技术原理并不复杂。苹果公司可能使用声纹识别技术来实现定向语音分离,然后使用卷积神经网络来匹配声纹识别编码器,在复杂的声学环境中准确捕捉目标用户的声音

到目前为止,谷歌的相关设备仍需通过“OK Google”和“Hey Google”唤醒谷歌助手。其中一个重要原因是,“谷歌”这个词本身并不冷,因为谷歌已经渗透到了用户的日常生活中。只有这个词作为唤醒谷歌助手的“钥匙”,才会不可避免地导致频繁的错误唤醒。相比之下,Siri这个新词的应用范围非常狭窄。iPhone只能监控与“Siri”发音匹配的声纹,以判断用户是否需要使用智能语音助手。值得一提的是,苹果还计划允许Siri与第三方应用程序相结合,这将大大提高Siri的可用性。最重要的原因是苹果一直坚持的封闭模式

标签: 苹果语音识别