问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

几十年来的语音识别Siri是如何诞生的

发布网友 发布时间:2024-10-08 18:27

我来回答

1个回答

热心网友 时间:2024-12-06 18:05

回顾语音识别技术的发展,就像看着孩子长大一样,从识别单个音节的婴儿谈话水平,到建立数千个单词的词汇,到用快速、机智的回答来回答问题,就像苹果的超级智能虚拟助理Siri所做的那样。

听Siri,它略带沙哑的幽默感,让我们不禁想知道,这些年来,语音识别有多远。 下面来看看过去几十年的发展,这些发展使人们能够只使用他们的声音来控制设备。
1950年代和1960年代:婴儿谈话
第一个语音识别系统只能理解数字。 (考虑到人类语言的复杂性,发明家和工程师首先关注数字是有道理的。) 贝尔实验室于1952年设计了“奥德丽”系统,它识别单个声音所说的数字。 十年后,IBM在1962年的世界博览会上展示了它的“鞋盒”机器,它能听懂16个英语单词。
美国、日本、英国和苏联的实验室开发了其他硬件,致力于识别口语,扩展语音识别技术,以支持四个元音和九个辅音。
它们听起来可能不太像,但这些最初的努力是一个令人印象深刻的开始,特别是当你考虑到当时计算机本身是多么原始的时候。
20世纪70年代:语音识别起飞
由于美国国防部的兴趣和资助,语音识别技术在20世纪70年代取得了重大进展。 从1971年到1976年,DoD的DARPA语音理解研究(SUR)计划是语音识别史上最大的一个,除其他外,它还负责卡内基梅隆的“哈比”语音理解系统。 哈比可以理解1011个单词,大约是一个平均三岁的人的词汇量。
哈比之所以重要,是因为它引入了一种更有效的搜索方法,称为波束搜索,以“证明可能句子的有限状态网络”,根据AlexWaibel和Kai-FuLee在语音识别中的阅读。 (语音识别的故事与搜索方法和技术的进步密切相关,就在几年前谷歌进入移动设备语音识别领域就证明了这一点。)
70年代还标志着语音识别技术的其他几个重要里程碑,包括成立了第一家商业语音识别公司ThresholdTechnology,以及贝尔实验室推出了一种可以解释多个人声音的系统。
1980年代:语音识别转向预测
在接下来的十年里,由于理解人们所说的话的新方法,语音识别词汇从大约几百个单词跳到几千个单词,并且有可能识别无限数量的单词。 一个主要原因是一种新的统计方法,称为隐马尔可夫模型。
而不是简单地使用模板的单词和寻找声音模式,HMM考虑了未知声音的概率是单词。 这一基础将在今后二十年内建立(见自动语音识别技术发展简史B.H.Juang和Lawrence R.Rabiner)。
有了这种扩大的词汇,语音识别开始进入商业和专业行业的商业应用(例如,医疗使用)。 它甚至进入了家,以世界奇迹的朱莉娃娃(1987)的形式,孩子们可以训练来回应他们的声音。 (最后,了解你的娃娃。
看看朱莉能说什么:
然而,当时的语音识别软件是否能像1985年的Kurzweil文本到语音程序那样识别1000个单词,或者它是否能像IBM的系统那样支持5000个单词的词汇表,一个重要的障碍仍然存在:这些程序需要离散的听写,所以你必须在每个单词之后暂停。
下一页:面向群众的语音识别,以及语音识别的未来
1990年代:大众自动语音识别
在90年代,拥有更快处理器的计算机终于到来,语音识别软件对普通人来说变得可行。
在1990年,龙推出了第一个消费者语音识别产品,龙口述,令人难以置信的价格$9000。 七年后,进步很大的龙自然地来到了。 应用程序识别连续的语音,所以你可以说,嗯,自然,每分钟100字左右。 然而,你不得不训练这个项目45分钟,它仍然是昂贵的695$。
第一个语音门户VAL来自贝尔南方,是在1996年出现的;VAL是一个拨号式交互式语音识别系统,它应该根据你在电话上说的话给你提供信息。 VAL为所有不准确的语音激活菜单铺平了道路,这些菜单将在未来15年及以后困扰呼叫者。
2000年代:语音识别平台——直到谷歌出现
到2001年,计算机语音识别的准确率达到了80%,而且在近十年末,这项技术的进步似乎停滞不前。 在语言宇宙有限的情况下,识别系统做得很好,但在统计模型的帮助下,在类似发音的单词中,它们仍然是“猜测”的,随着互联网的发展,已知的语言宇宙继续增长。
你知道语音识别和语音命令是内置在Windows Vista和MacOSX中的吗? 许多计算机用户都不知道这些特性的存在。 Windows语音识别和OSX的语音命令很有趣,但不像普通的旧键盘和鼠标那么精确或容易使用。
语音识别技术的发展开始回到最前沿,其中一个重大事件:谷歌语音搜索应用程序的到来,为iPhone。 谷歌应用的影响是显著的,原因有两个。 首先,手机和其他移动设备是语音识别的理想工具,因为想要取代它们微小的屏幕键盘是开发更好的替代输入方法的动力。 其次,谷歌有能力将其应用程序的处理卸载到其云数据中心,利用所有的计算能力来进行大规模的数据分析,以便在用户的单词和它收集的大量人类语音示例之间进行匹配。
总之,语音识别的瓶颈一直是数据的可用性和高效处理数据的能力。 谷歌的应用程序在分析中增加了数十亿搜索查询的数据,以更好地预测你可能在说什么。
2010年,谷歌在Android手机语音搜索中增加了“个性化识别”,使该软件能够记录用户的语音搜索,并生成更准确的语音模型。 该公司还在2011年年中将语音搜索添加到Chrome浏览器中。 还记得我们从10到100个单词开始,然后毕业到几千吗? 谷歌的英语语音搜索系统现在包含了来自实际用户查询的2300亿个单词。
西里来了。 像谷歌的语音搜索一样,Siri依赖于基于云的处理。 它绘制它所知道的关于你的内容来生成一个上下文的回复,并且它以个性来响应你的声音输入。 正如我的PCWorld同事大卫·道所指出的:“这不仅有趣,而且有趣。 当你问Siri生命的意义时,它告诉你“42”或“迄今为止所有的证据都指向巧克力”。 如果你告诉它你想隐藏一具尸体,它会帮助附近的垃圾场和金属铸造厂。
语音识别已经从实用到娱乐。 这孩子似乎都长大了。
未来:准确无误的话语
语音识别应用程序的激增表明,语音识别的时代已经到来,你可以期待未来更多的应用程序。 这些应用程序不仅可以让你通过语音控制你的电脑,或者将语音转换为文本-它们还将支持多种语言,提供各种扬声器的声音供你选择,并集成到你的移动设备的每一个部分(也就是说,它们将克服Siri的缺点)。
语音识别应用程序的质量也会提高。 例如,感官的真正无手语音控制可以听到和理解你,即使在嘈杂的环境中。
当每个人都开始对自己的移动设备大声说话时,语音识别技术可能会溢出到其他类型的设备中。 不难想象,在不久的将来,我们会命令我们的咖啡机,与打印机交谈,并告诉灯关闭自己。

热心网友 时间:2024-12-06 18:10

回顾语音识别技术的发展,就像看着孩子长大一样,从识别单个音节的婴儿谈话水平,到建立数千个单词的词汇,到用快速、机智的回答来回答问题,就像苹果的超级智能虚拟助理Siri所做的那样。

听Siri,它略带沙哑的幽默感,让我们不禁想知道,这些年来,语音识别有多远。 下面来看看过去几十年的发展,这些发展使人们能够只使用他们的声音来控制设备。
1950年代和1960年代:婴儿谈话
第一个语音识别系统只能理解数字。 (考虑到人类语言的复杂性,发明家和工程师首先关注数字是有道理的。) 贝尔实验室于1952年设计了“奥德丽”系统,它识别单个声音所说的数字。 十年后,IBM在1962年的世界博览会上展示了它的“鞋盒”机器,它能听懂16个英语单词。
美国、日本、英国和苏联的实验室开发了其他硬件,致力于识别口语,扩展语音识别技术,以支持四个元音和九个辅音。
它们听起来可能不太像,但这些最初的努力是一个令人印象深刻的开始,特别是当你考虑到当时计算机本身是多么原始的时候。
20世纪70年代:语音识别起飞
由于美国国防部的兴趣和资助,语音识别技术在20世纪70年代取得了重大进展。 从1971年到1976年,DoD的DARPA语音理解研究(SUR)计划是语音识别史上最大的一个,除其他外,它还负责卡内基梅隆的“哈比”语音理解系统。 哈比可以理解1011个单词,大约是一个平均三岁的人的词汇量。
哈比之所以重要,是因为它引入了一种更有效的搜索方法,称为波束搜索,以“证明可能句子的有限状态网络”,根据AlexWaibel和Kai-FuLee在语音识别中的阅读。 (语音识别的故事与搜索方法和技术的进步密切相关,就在几年前谷歌进入移动设备语音识别领域就证明了这一点。)
70年代还标志着语音识别技术的其他几个重要里程碑,包括成立了第一家商业语音识别公司ThresholdTechnology,以及贝尔实验室推出了一种可以解释多个人声音的系统。
1980年代:语音识别转向预测
在接下来的十年里,由于理解人们所说的话的新方法,语音识别词汇从大约几百个单词跳到几千个单词,并且有可能识别无限数量的单词。 一个主要原因是一种新的统计方法,称为隐马尔可夫模型。
而不是简单地使用模板的单词和寻找声音模式,HMM考虑了未知声音的概率是单词。 这一基础将在今后二十年内建立(见自动语音识别技术发展简史B.H.Juang和Lawrence R.Rabiner)。
有了这种扩大的词汇,语音识别开始进入商业和专业行业的商业应用(例如,医疗使用)。 它甚至进入了家,以世界奇迹的朱莉娃娃(1987)的形式,孩子们可以训练来回应他们的声音。 (最后,了解你的娃娃。
看看朱莉能说什么:
然而,当时的语音识别软件是否能像1985年的Kurzweil文本到语音程序那样识别1000个单词,或者它是否能像IBM的系统那样支持5000个单词的词汇表,一个重要的障碍仍然存在:这些程序需要离散的听写,所以你必须在每个单词之后暂停。
下一页:面向群众的语音识别,以及语音识别的未来
1990年代:大众自动语音识别
在90年代,拥有更快处理器的计算机终于到来,语音识别软件对普通人来说变得可行。
在1990年,龙推出了第一个消费者语音识别产品,龙口述,令人难以置信的价格$9000。 七年后,进步很大的龙自然地来到了。 应用程序识别连续的语音,所以你可以说,嗯,自然,每分钟100字左右。 然而,你不得不训练这个项目45分钟,它仍然是昂贵的695$。
第一个语音门户VAL来自贝尔南方,是在1996年出现的;VAL是一个拨号式交互式语音识别系统,它应该根据你在电话上说的话给你提供信息。 VAL为所有不准确的语音激活菜单铺平了道路,这些菜单将在未来15年及以后困扰呼叫者。
2000年代:语音识别平台——直到谷歌出现
到2001年,计算机语音识别的准确率达到了80%,而且在近十年末,这项技术的进步似乎停滞不前。 在语言宇宙有限的情况下,识别系统做得很好,但在统计模型的帮助下,在类似发音的单词中,它们仍然是“猜测”的,随着互联网的发展,已知的语言宇宙继续增长。
你知道语音识别和语音命令是内置在Windows Vista和MacOSX中的吗? 许多计算机用户都不知道这些特性的存在。 Windows语音识别和OSX的语音命令很有趣,但不像普通的旧键盘和鼠标那么精确或容易使用。
语音识别技术的发展开始回到最前沿,其中一个重大事件:谷歌语音搜索应用程序的到来,为iPhone。 谷歌应用的影响是显著的,原因有两个。 首先,手机和其他移动设备是语音识别的理想工具,因为想要取代它们微小的屏幕键盘是开发更好的替代输入方法的动力。 其次,谷歌有能力将其应用程序的处理卸载到其云数据中心,利用所有的计算能力来进行大规模的数据分析,以便在用户的单词和它收集的大量人类语音示例之间进行匹配。
总之,语音识别的瓶颈一直是数据的可用性和高效处理数据的能力。 谷歌的应用程序在分析中增加了数十亿搜索查询的数据,以更好地预测你可能在说什么。
2010年,谷歌在Android手机语音搜索中增加了“个性化识别”,使该软件能够记录用户的语音搜索,并生成更准确的语音模型。 该公司还在2011年年中将语音搜索添加到Chrome浏览器中。 还记得我们从10到100个单词开始,然后毕业到几千吗? 谷歌的英语语音搜索系统现在包含了来自实际用户查询的2300亿个单词。
西里来了。 像谷歌的语音搜索一样,Siri依赖于基于云的处理。 它绘制它所知道的关于你的内容来生成一个上下文的回复,并且它以个性来响应你的声音输入。 正如我的PCWorld同事大卫·道所指出的:“这不仅有趣,而且有趣。 当你问Siri生命的意义时,它告诉你“42”或“迄今为止所有的证据都指向巧克力”。 如果你告诉它你想隐藏一具尸体,它会帮助附近的垃圾场和金属铸造厂。
语音识别已经从实用到娱乐。 这孩子似乎都长大了。
未来:准确无误的话语
语音识别应用程序的激增表明,语音识别的时代已经到来,你可以期待未来更多的应用程序。 这些应用程序不仅可以让你通过语音控制你的电脑,或者将语音转换为文本-它们还将支持多种语言,提供各种扬声器的声音供你选择,并集成到你的移动设备的每一个部分(也就是说,它们将克服Siri的缺点)。
语音识别应用程序的质量也会提高。 例如,感官的真正无手语音控制可以听到和理解你,即使在嘈杂的环境中。
当每个人都开始对自己的移动设备大声说话时,语音识别技术可能会溢出到其他类型的设备中。 不难想象,在不久的将来,我们会命令我们的咖啡机,与打印机交谈,并告诉灯关闭自己。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
“定是李八百”的出处是哪里 李八百六种说法 李仙指道教传说中仙人 李八百 学习劈叉,每次静压压腿多久 六哥救的叫花子是谁的孩子 大智慧江恩三日图源码,找了无数公式,想在大智慧里用 ,一直没找到_百度... 测试类工具有哪些 服务器压力测试需要用的8种工具 8岁的小孩能玩什么游戏8岁男童和父母玩些什么互动游戏 摩尔庄园手游冲浪板凯文在哪里现在摩尔庄园凯文在哪 人工智能的发展历史是什么? 沪深300股指期货手续费多少? - 知乎 2024年成人专升本考试时间 河北省2024成人专升本报名和考试时间是什么时候 成人专升本时间2024年具体时间 丝兰和剑麻的区别,分别怎么养护 凤尾兰和剑麻的区别 凤尾兰和剑麻的区别是什么 win10系统怎么删除文件夹 杭州景都豪庭大酒店到机场(公交)怎么走? 河北省地图册的图书目录 北京新东方前途出国咨询有限公司吉林省分公司怎么样? 圆形钕铁硼磁铁:强磁力的奥秘 钕铁硼磁铁有辐射吗 明天韶关至英德的列车 ...期间不发了?我要到英德,做其他车到韶关转车的话,怎么坐汽车?车... 能不能用类似雀巢花心筒这样的蛋卷冰激凌做成蛋糕或点心之类的东西呢... 蛋卷冰淇淋由来 ipadword怎么手写 游广陵诸胜记作者简介 游广陵诸胜记作品注释 PPS和PPLive有什么区别? PPLive 网络电视和PPS那个更好? pplive点播要不要钱??? BIOS第一驱动怎么改成USB-HDD 美观释义 好看又漂亮是什么意思? 漂亮意思是什么 杭州喜瓶者仪器技术有限公司怎么样 海宁市许村中学的师资力量 海宁市许村中学师资力量 今天2015、7、23海宁许村什么时间下雨 新四大火炉之首 新四大火炉之首时哪个城市 中国的四大火炉城市 中国4大火炉之一 ...里的宽带时,本地连接总是显示无法识别网络,IP地址是192.168 .0.1 下... 我把电脑的地址改为192.168.1.3 但是我在网上查询IP为59.42.110.86 为 ... 英语六级一次过的人多吗 总承包服务费的介绍 ...的物质,ATP与葡萄糖具有不同的特点。请概括ATP具有那些特点。?谢 ... ...的痘痘非常严重哦.我想知道有什么办法可以治好?.谢绝化学产品._百度...