如何将声纹识别技术用到极致

时间：2020-07-30 14:48:01

关键字： nsa 声纹识别

[导读] 尽管我们已经知道NSA依靠指纹和面部图像来识别目标，但是根据 2008 年的一份机构文件，声纹才是“NSA 的统治地位所在”。在美苏冷战最严峻的时期，那是 19

尽管我们已经知道NSA依靠指纹和面部图像来识别目标，但是根据 2008 年的一份机构文件，声纹才是“NSA 的统治地位所在”。

在美苏冷战最严峻的时期，那是 1980 年的冬天，美国联邦调查局（FBI）的特工人员记录到了一次通话——一名男子被安排与在华盛顿特区的苏联大使进行秘密会晤。然而，在约定的那天，调查局的特工们没能看到究竟是谁进入了大使馆。当时，特工们没有办法仅根据他的通话声音就查出他的名字，所以这个间谍得以继续藏匿自己的身份，并在随后的五年中，将一些美国机密项目的细节卖给了苏联。

直到 1985 年，根据一名俄罗斯叛逃者提供的情报，FBI 才最终确定了当时那名通话者为前美国国家安全局（NSA）分析员 Ronald Pelton。次年，Ronald Pelton 被判处间谍罪。

而今，FBI 和 NSA 的特工能够在 Pelton 给苏联拨出第一个电话的几秒内识别出他的真实身份。NSA 2006 年 1 月的机密备忘录显示，NSA 的分析员使用了一种“用声音识别人的技术”成功将 Pelton 以往的音频文件与电话监控相匹配。备忘录中描述道：“如果这种技术早出现 20 年，那么将能够提前发现 Pelton 的间谍行为并实施抓捕，这将会大大减少 Pelton 对国家安全造成的重大损失。”

由前 NSA 雇员斯诺登提供的机密文件显示，NSA 开发的技术不仅能够将私密对话转为文本，还能自动识别对话中的人。

美国人在唤醒亚马逊的 Alexa 或者打电话给银行的时候，经常会使用到这种被称为声纹识别的技术。但是早在“Hello Siri”和“OK Google”这样的语言指令走入寻常百姓家之前十年，NSA 就用这种声纹识别技术来监控恐怖分子、政治家、毒枭、间谍甚至是一些普通政府机构的雇员。

这种技术的原理在于分析个人声音中独特的物理和行为特征来区分不同人的声音，例如发声的音高、嘴型、咽部长度等。算法随后会创建个人声音特征的动态计算机模型，也就是通常所说的“声纹”模型。整个过程——捕捉所说的单词、将单词转化为声纹、并将这种表示与数据库中其他的“声纹”进行对比——都可以在瞬间完成。尽管我们已经知道 NSA 依靠指纹和面部图像来识别目标，但是根据 2008 年的一份机构文件，声纹才是“NSA 的统治地位所在”。

我们不难看出原因。NSA，无论获得许可与否，截取了数以百万计的美国公民的电话，甚至包括越洋电话、视频电话和互联网电话，从而建立了一个无可比拟的声纹库。来自斯诺登提供的文件显示，分析人员将部分人的录音提供给声纹识别算法之后，即使这些人在其他通话中使用未知的号码、秘密代码亦或是不同语言，算法都可以将其与已有的音频相匹配。

早在伊拉克自由行动时，分析人员就使用声纹识别技术，证实了那些“疑似被废黜的领导人萨达姆的录音”确实是萨达姆本人，而不像公众以为的那样是伪造的。NSA 的备忘录进一步表明，NSA 分析员为本·拉登也构建了声纹，“在几次放送中，他的声音都十分明显且一致”；与基地组织的现任领导人 Ayman al-Zawahri 以及基地组织的三把手 Abu Musab al-Zarqawi 有显著不同。他们也使用 Zarqawi 的声纹从几份网上发布的音频中找到了他。

据 2004 年至 2012 年间的机密文件显示，NSA 对其声纹识别技术进行了愈发复杂的迭代。文件证实了声纹识别在反恐行动和缉毒行动中均获使用。文件还建议更多国家机构部署这项技术，不仅仅是为了追溯像 Pelton 这样的间谍，还为了防止像斯诺登这样的举报人出现。

永远在听的算法

（2015 年 3 月 4 日，一位男子倚在纽约的一个公共电话亭旁用智能手机打电话）

一些民权专家担心声纹识别技术和该技术的扩展应用将会侵害公民隐私。白宫前国家情报局局长顾问 TImothy Edgar 解释说，“声纹识别技术即创建了一种新的情报能力，一种容易被滥用的能力。”“我们的声音代替我们本人穿越各种渠道完成沟通。在大众监控的时代，这种能力对我们所有人的隐私都有深远的影响。”

Edgar 和其他专家指出，相比于姓名、地址、密码、电话号码和个人识别码，人声的相对稳定性使得其难以被改变或伪装。电子前线基金会（Electronic FronTIer FoundaTIon）的律师 Jamie Williams 表示，这让追踪变得“容易的多”。“只要你能识别出某个人的声音，”她表示，“你就能在监听记录或录音中找到他们。”

声音是一种独特且易于获取的生物特征：与 DNA 不同，它可以被动地被收集，且不受距离的限制，不需要目标知悉或者征得他们的同意。虽然识别的准确度受到收音条件的相似性，但是在受控的环境中——低底噪、熟悉的声学环境和良好的通信质量——这种技术可以用寥寥几句话就精确地匹配到个人。计算机模型拥有的同一个人的不同声音样本越多，模型就愈发强大，愈发“成熟”。

在商业环境中，声纹识别技术与呼叫中心欺诈审查、与 Siri 等语音助理交谈以及个人银行业务密码验证等任务关联密切。并且这种技术的用途正在逐渐增长，根据市场研究公司 TracTIca 的报告，到 2024 年，语音生物识别技术产业的收入预计将达到每年 50 亿美元，其用途将扩展至边境检查站、医疗、信用卡支付和可穿戴设备中。

公民自由主义者的一个主要担心在于，声纹识别技术有可能使谈话“冷却”。新闻自由基金会执行董事 Trevor Timm 指出，可以假设 NSA 的声纹识别技术将会被用来追踪记者、揭露消息来源，拦截匿名消息等。虽然如今人们已经知道在处理敏感材料时应该加密自己的电话，但是 Timm 指出，从电视机到耳机再到互联网设备，能够偷偷记录声音的渠道实在是不胜枚举。Timm 说，我们 24 小时都会随身携带一个麦克风，那就是我们的手机。我们知道政府有办法侵入手机和计算机来打开这些麦克风。

他继续说道，“尽管斯诺登泄密事件之后，立法方面发生了很大变化，但美国人民对这种政府用来监视全球数百万人的工具仍然只有一个片面的理解。这是一个值得在公众领域辩论的事情。”但是他指出，如果公众对技术的使用缺乏有意义的认识，这种争论将会非常困难——甚至是否能存在都值得商榷。

一位前国防情报官员，因政策所限无法对机密文件进行讨论，匿名对 The Intercept 表示，他相信这种技术一直隐而不漏绝非偶然。“政府避免讨论这种技术，正是因为它提出了一些严峻的问题，而这些问题政府不愿意回答，”这位官员如是说道。“这是自 911 事件发生以来，对于我们个人及我们的权利的一项重要转变。”而想要进入技术监控范围，官员指出，“你什么都不用做，张嘴说话就行了。”

民权主义者担心，如果没有针对政府秘密收集我们的语音模式这一事项的公开讨论以及监督，我们可能会进入一个越来越沉默的世界。

新型声音工具

（2012 年 10 月 9 日，科罗拉多州博尔德，美国国家标准与技术研究院语音研究所（NIST）大楼）

2013 年开始，美国人就已经知道 NSA 在大量收集国内外的电话数据，但如何将原始数据转化为有用情报这一技术仍然鲜为人知。2015 年，据 The Intercept 报道，NSA 为处理政府收集的大量音频建立了一系列“人类语言技术”。通过开发程序自动将语音翻译成文本——分析员称之为“语音版 Google”——政府部门可以使用关键词和“选择器”来搜索、阅读和索引录音而不是派人亲自去听，从而节省了大量的人力。

从语音转写文字项目衍生的声纹识别技术为分析员提供了一种额外的工具，使其可以将不计其数的战区音频进行拦截与分类。NSA 和国防部斥巨资发展此技术并增加其可靠性。数字时代之前，声纹识别隶属于法庭科学。二战期间，人类分析员对来自无线电的声音频率的可视化输出进行比较。根据《法庭声纹识别》的作者 Harry Hollien 的说法，这些可以“阅读语音”的机器——即语谱图技术——甚至用来驳斥阿道夫•希特勒被暗杀并被人取代的谣言。

作为法庭声纹识别标准化事宜的联邦领导者，首席声纹识别专家 James Wayman 解释道：“声纹可以被看到，”他指出，虽然“声纹”这个词已经被商业公司用烂了，但其实有一定的误导性。因为“纹”意味着所捕获的信息是物理的，而不是行为的。他说：“其实你所拥有的是软件程序里的一个方程，能够输出不同的数字。”

这些方程已经从简单的求均值演变为动态算法模型。自 1996 年依赖，NSA 资助了美国国家标准与技术研究院语音研究所（NIST），培养和测试“解决声纹识别问题的最具主导性和前途的算法”。与 NIST 一起测试系统的还有，领先的生物识别公司和研究人员，其中有一些人获得了 NSA 和国防部高级研究计划局（DARPA）的资助。

NSA 一直对其声纹识别项目三缄其口，因此公众很难知道它目前可以发挥多大的作用。但是考虑到 NSA 资助的学术研究所和私企间紧密的联系，从其他国家正在做的事情和供应商正在销售的东西可以大概估计出 NSA 的进展。