- 语音编程可能成为软件开发的下一个前沿领域
- 来源:IEEE电气电子工程师
点击上方“IEEE电气电子工程师”即可订阅公众号。网罗全球科技前沿动态,为科研创业打开脑洞。
随着技术的不断进步,使得我们每个人也越来越多地与Siri和Alexa等小工具互动。这些小工具现在也加入了Apple CarPlay和Android Auto等汽车助手的行列,甚至还有一些对语音生物特征识别敏感的应用程序。但是,设想一下,如果技术本身就可以用语音来构建呢?
这就是语音编码背后的前提 -- 一种使用语音开发软件的方法,而不是用键盘和鼠标来编写代码。通过语音编码平台,程序员说出命令来操作代码,并创建自定义命令,以迎合和自动化他们的工作流程。
语音编码并不像看上去那么简单,背后有一层层复杂的技术。例如,语音编码应用Serenade有一个专门为代码开发的语音转文本引擎,而Google的语音转文本API是为会话语音设计的。一旦软件工程师说出代码,Serenade的引擎就会将代码输入到自然语言处理层,该层的机器学习模型经过训练,能够识别常见的编程结构并将其转换为语法正确有效的代码。
Images: SerenadeFrom Voice to Code: Two of the leading programming-by-speech platforms today offer different approaches to the problem of reciting code to a computer. One, Serenade, acts a little like a digital assistant—allowing you to describe the commands you’re encoding, without mandating that you necessarily dictate each instruction word-for-word. Another, Talon, provides more granular control over each line, which also necessitates a slightly more detail-oriented grasp of each task being programmed into the machine. A simple example, below, is a step-by-step guide—in Serenade and in Talon—to generating the Python code needed to print the word “hello” onscreen.
Serenade在2020年的种子基金中筹集了210万美元,当联合创始人Matt Wiethoff在2019年被诊断出重复性劳损时,Serenade应运而生。他说:“我辞去了Quora的软件工程师的工作,因为我没办法再负荷这项工作了。要么选择一个不需要这么多打字的不同职业,要么我就需要想出一些解决办法。”
Ryan Hileman也同样走上了这条路,他患上了严重的手部疼痛症,于2017年辞去了软件工程师的全职工作。就在那时,Hileman开始构建Talon -- 一个解放双手的编码平台。他说:“Talon的目的在于为人们完全取代键盘和鼠标。”
Talon有几个组件:语音识别、眼球跟踪和噪声识别。Talon的语音识别引擎基于Facebook的Wav2letter自动语音识别系统,Hileman将其扩展以适应语音编码命令。同时,Talon的眼球跟踪和噪音识别功能模拟了用鼠标的活动,根据眼球运动在屏幕上移动光标,根据嘴巴发出的声音做出点击的动作。“声音的发出很容易。这是一种很省力的方法,而且识别的速度也很快,所以这是一种非常快速的、非语言的鼠标点击方式,” Hileman说。
用Talon编码听起来像是在说另一种语言,正如软件工程师和语音编码器Emily Shea在2019年的一次会议演讲中所展示的那样。她的视频中充满了语音命令,如“slap”(点击返回)、“undo”(删除)、“spring 3”(转到文件的第三行)和“phrase name op等于snake extract word paren mad”,形成了这行代码:name=extract\u word(m))。
另一方面,用Serenade编码遵循一种更自然的方式来说出代码 --可以说“delete import”删除文件顶部的导入指令,也可以说“build”运行自定义生成命令。例如,也可以说“addfunction factorial”来创建一个在JavaScript中计算阶乘的函数,应用程序会处理语法,包括“function”关键字、括号和花括号,这样就不必不断声明每个元素内容了。
Illustration: IEEE Spectrum
语音编码确实需要一个像样的麦克风,特别是如果你想消除背景噪音,不过Serenade的模型是根据笔记本电脑麦克风产生的音频进行训练的。如果你想运行Talon进行眼球跟踪,你还需要眼球跟踪硬件。(不过,Talon在没有它的情况下运行得很好。)Aenea和Caster等开源语音编码平台是免费的,但都依赖于Dragon语音识别引擎,用户必须自己购买。也就是说,Caster提供了对Kaldi的支持,Kaldi是一个开源的语音识别工具包,Windows语音识别是预装在Windows中的。
Serenade实验室的联合创始人Tommy MacWilliam表示,研究结果不言自明。“能够语言描述出你想做的事情要容易得多,”他说,“说出‘将这三行向下移动’或‘复制此方法’,比键盘输入更简便快捷。”
语音编码还可以帮助那些受伤或慢性疼痛的人不必放弃他们的职业生涯。Shea说:“能够使用语音,抛开使用手臂,也开辟出了一种限制更少的使用电脑的方式。"
用语音编码也可以降低软件开发的门槛。“如果他们能以逻辑和结构化的方式思考想写的代码,MacWilliam说,“那么我们就可以让机器学习来走最后一步,把这些想法转化为语法上有效的代码。”
语音编码仍处于初级阶段,其获得广泛采用的潜力取决于软件工程师对传统键盘和鼠标模式的编码方式的依赖程度。但语音编码开辟了一种可能性,甚至可能是一个未来方向,大脑-计算机接口来直接将你的想法转化为代码或软件本身。
这篇文章发表在2021年4月的印刷版上,标题是“用代码说话(Speaking In Code)”。
About the AuthorRina Diane Caballar is a journalist and former software engineer based in Wellington, New Zealand.
微信号|IEEE电气电子工程师新浪微博|IEEE中国 · IEEE电气电子工程师 ·
往期推荐
推荐阅读 对话IEEE专家:科技赋能产业转型升级,助力基础设施建设4-15 IEEE Transmitter 机器人推动了海洋生物燃料的开发4-06 Evan Ackerman 有了这个基因组CAD 你可以设计出新的生物体4-08 Eliza Strickland 研究人员推出3D全息图生成新方法 可在智能手机上实时运行4-01 Charles Q. Choi
你“在看”我吗?
随着技术的不断进步,使得我们每个人也越来越多地与Siri和Alexa等小工具互动。这些小工具现在也加入了Apple CarPlay和Android Auto等汽车助手的行列,甚至还有一些对语音生物特征识别敏感的应用程序。但是,设想一下,如果技术本身就可以用语音来构建呢?
这就是语音编码背后的前提 -- 一种使用语音开发软件的方法,而不是用键盘和鼠标来编写代码。通过语音编码平台,程序员说出命令来操作代码,并创建自定义命令,以迎合和自动化他们的工作流程。
语音编码并不像看上去那么简单,背后有一层层复杂的技术。例如,语音编码应用Serenade有一个专门为代码开发的语音转文本引擎,而Google的语音转文本API是为会话语音设计的。一旦软件工程师说出代码,Serenade的引擎就会将代码输入到自然语言处理层,该层的机器学习模型经过训练,能够识别常见的编程结构并将其转换为语法正确有效的代码。
Serenade在2020年的种子基金中筹集了210万美元,当联合创始人Matt Wiethoff在2019年被诊断出重复性劳损时,Serenade应运而生。他说:“我辞去了Quora的软件工程师的工作,因为我没办法再负荷这项工作了。要么选择一个不需要这么多打字的不同职业,要么我就需要想出一些解决办法。”
Ryan Hileman也同样走上了这条路,他患上了严重的手部疼痛症,于2017年辞去了软件工程师的全职工作。就在那时,Hileman开始构建Talon -- 一个解放双手的编码平台。他说:“Talon的目的在于为人们完全取代键盘和鼠标。”
Talon有几个组件:语音识别、眼球跟踪和噪声识别。Talon的语音识别引擎基于Facebook的Wav2letter自动语音识别系统,Hileman将其扩展以适应语音编码命令。同时,Talon的眼球跟踪和噪音识别功能模拟了用鼠标的活动,根据眼球运动在屏幕上移动光标,根据嘴巴发出的声音做出点击的动作。“声音的发出很容易。这是一种很省力的方法,而且识别的速度也很快,所以这是一种非常快速的、非语言的鼠标点击方式,” Hileman说。
用Talon编码听起来像是在说另一种语言,正如软件工程师和语音编码器Emily Shea在2019年的一次会议演讲中所展示的那样。她的视频中充满了语音命令,如“slap”(点击返回)、“undo”(删除)、“spring 3”(转到文件的第三行)和“phrase name op等于snake extract word paren mad”,形成了这行代码:name=extract\u word(m))。
另一方面,用Serenade编码遵循一种更自然的方式来说出代码 --可以说“delete import”删除文件顶部的导入指令,也可以说“build”运行自定义生成命令。例如,也可以说“addfunction factorial”来创建一个在JavaScript中计算阶乘的函数,应用程序会处理语法,包括“function”关键字、括号和花括号,这样就不必不断声明每个元素内容了。
语音编码确实需要一个像样的麦克风,特别是如果你想消除背景噪音,不过Serenade的模型是根据笔记本电脑麦克风产生的音频进行训练的。如果你想运行Talon进行眼球跟踪,你还需要眼球跟踪硬件。(不过,Talon在没有它的情况下运行得很好。)Aenea和Caster等开源语音编码平台是免费的,但都依赖于Dragon语音识别引擎,用户必须自己购买。也就是说,Caster提供了对Kaldi的支持,Kaldi是一个开源的语音识别工具包,Windows语音识别是预装在Windows中的。
Serenade实验室的联合创始人Tommy MacWilliam表示,研究结果不言自明。“能够语言描述出你想做的事情要容易得多,”他说,“说出‘将这三行向下移动’或‘复制此方法’,比键盘输入更简便快捷。”
语音编码还可以帮助那些受伤或慢性疼痛的人不必放弃他们的职业生涯。Shea说:“能够使用语音,抛开使用手臂,也开辟出了一种限制更少的使用电脑的方式。"
用语音编码也可以降低软件开发的门槛。“如果他们能以逻辑和结构化的方式思考想写的代码,MacWilliam说,“那么我们就可以让机器学习来走最后一步,把这些想法转化为语法上有效的代码。”
语音编码仍处于初级阶段,其获得广泛采用的潜力取决于软件工程师对传统键盘和鼠标模式的编码方式的依赖程度。但语音编码开辟了一种可能性,甚至可能是一个未来方向,大脑-计算机接口来直接将你的想法转化为代码或软件本身。
这篇文章发表在2021年4月的印刷版上,标题是“用代码说话(Speaking In Code)”。
About the AuthorRina Diane Caballar is a journalist and former software engineer based in Wellington, New Zealand.
往期推荐
推荐阅读
你“在看”我吗?
科技
-
-
- [报告]2021中国新生代人群汽车兴趣洞察(附28页PDF文件下载)
- 4月16日,懂车帝联合中国汽车流通协会、巨量算数发布《2021中国新生代人群汽车兴趣洞察报告》。《报告》研究了18-24岁年轻人群的汽车消费链路,从信息渠道、信息形式、车辆偏好、人机关系等多个层面加以调研分析...
- 汽车之地
-
-
-
- 保护业务数据以免发生数据泄露的3个提示
- 关键讯息,D1时间送达!组织可以考虑采用一些有效措施来确保信息安全,可以使员工和客户确信他们的个人信息不会落入任何未经允许的人员的手中。采用正确的数字安全策略对于保护组织免遭数据泄露的影响至关重要。...
- 信息安全D1net
-
-
-
- 华为官宣“造车”然而留给华为的时间只有七个半月了
- | 科 | 技 | 杂 | 谈 |中国通信行业第一自媒体本文作者:南北本文来源:GPLP(gplpcn)杂谈投稿邮箱:631255063@qq.com在这种环境下造车,华为也是迫不得已。然而,留给华为的时间只有七个半月,与此同时,缺钱...
- 科技杂谈
-
-
-
- 国务院政策例行吹风会介绍网络提速降费政策有关情况
- 4月19日,国务院新闻办举行网络提速降费政策有关情况政策例行吹风会。工业和信息化部党组成员、副部长刘烈宏,工业和信息化部信息通信发展司副司长刘郁林,国务院国资委财管运行局负责人刘绍娓出席吹风会介绍有...
- 中国电子报
-
-
-
- 突破!真正柔软的机器人手臂来了
- 中国科学技术大学机器人团队研发出一种可拧开瓶盖的机器人手臂。课题组供图打开家里的一扇门、一个抽屉、一个瓶盖,有多难?这些人类的“举手之劳”,却是机器人攻不下的“堡垒”,其难度不亚于让机器人下围棋,...
- 中科院之声
-
-
-
- 逆势完成C+轮融资,人工智能企业竹间智能开启云化元年
- 2021年4月14日,竹间智能科技(上海)有限公司宣布完成1亿元人民币C+轮战略融资。本轮由申能诚毅、广发信德、朗玛峰资本合投,老股东中华开发金控再次追投。 据公开资料显示,竹间智能2015年成立,此前曾于2020年1...
- 看懂经济
-
-
-
- 日本厚劳省出示用数字货币支付工资的制度方案|悦读全球
- 悦读全球(2021.04.19)日本厚劳省出示用数字货币支付工资的制度方案日本厚生劳动省19日,围绕利用通过电子信息进行交易的“数字货币”支付工资,向劳动政策审议会小组会出示了一项大致方案,内容是在保证安全性...
- 经济观察报
-
-
-
- 马云变慢,任正非很快
- 马云最近,真是低调的不得了,任何新闻里都不见其踪影。 哪怕如此,他还是被监管层接连“实锤”,上周末,他又被“点名”。 坊间称,监管层觉得马云步伐太快,给他降温。 另一边,华为周末官宣“造车”,任正非...
- OFweek维科网
-
-
-
- 专访华为全球网络安全与用户隐私保护官:华为没有什么最高机密
- 华为公司顾问田涛在2013年至2019年6年时间内,对华为上至高层下至普通员工共几百人进行了访谈,集结成了一部《华为访谈录》。本文节选自《华为访谈录》中,田涛于2014年4月24日对话华为全球网络安全与用户隐私保...
- 华营管理私塾
-
-
-
- BOCOM 新一代头盔式数字化单兵侦察系统(天眼)
- 天眼高清便携摄像机是针对武警,特警,移动执法取证、行政监管等单人便携式监控需求应用场景开发的专用设备,该产品采用高速处理器和嵌入式Linux操作系统,集超低照度彩色摄像机、Wi-Fi无线通讯模块、GPS/北斗、...
- 对讲机世界
-
-
-
- [牛人访谈]安全可以更简单:TDR智能安全运营服务
- 目前全球网络威胁有增无减,安全形势愈发严峻。调查显示,有80%的机构或企业因为网络安全问题而遭受损失。但是,网络安全建设是一项专业要求高、体系复杂的工作,不仅要花费巨额预算采购品类繁杂的各种安全产品...
- 安全牛
-
-
-
- 聚焦CUBE-Net3.0|基于新一代SDN管控架构构建云网大脑,实现云网一体
- 2021年4月中,中国云网智联大会在北京盛大召开,在云光一体主题论坛研讨会上,中国联通研究院网络技术研究中心总监、教授级高工王光全发表了题为“云网智联,构建云网一体化基础设施——基于ACTN实现新一代SDN管...
- 中国联通微学堂
-
-
-
- 语音编程可能成为软件开发的下一个前沿领域
- 随着技术的不断进步,使得我们每个人也越来越多地与Siri和Alexa等小工具互动。这些小工具现在也加入了Apple CarPlay和Android Auto等汽车助手的行列,甚至还有一些对语音生物特征识别敏感的应用程序。但是,设想...
- IEEE电气电子工程师
-
-
-
- 重磅!邦德激光再次荣获2021德国iF工业设计大奖
- 2021邦德激光再次荣获德国IF设计大奖4月13日,2021德国iF设计奖结果揭晓,在参与评选的近一万个作品中,邦德激光旗下两款产品荣登iF设计奖榜单,分别为磁悬浮激光切割机和A系列激光切割机。邦德激光两款设备凭借...
- OFweek激光
-
-
-
- 为什么华为不造“华为汽车”?内部员工:钱确实是制约因素之一
- 作者|《财经》记者 顾凌宇 编辑|谢丽容检验华为自动驾驶能力的量产成果终于落地。4月17日,北汽新能源搭载华为Hi智能汽车解决方案落地的首款量产车型极狐阿尔法S上市。科技公司已经在智能汽车赛道上摩拳擦掌跃...
- 腾讯科技
-