• 科大讯飞用人工智能助力智慧检务 “智慧检务创新研究院”正式成立

    近年来,科学技术在检察机关应用的深度和广度不断提高,以人工智能为代表的各项现代科技已逐步融入检察工作的各个环节,在强化司法办案、深化检务公开、提升司法公信力中的作用日益凸显。

    作为中文智能语音和人工智能产业的领导者,科大讯飞近年来积极探索以智能语音为核心的人工智能各项技术与检察工作的深度融合,取得了显著成果。

    强化标准  探索应用 

    高检院发布《全国检察机关智能语音云平台建设指导方案》


    2016年3月,科大讯飞就智能语音技术在检察机关信息化建设中的应用向最高人民检察院进行专题汇报,获得最高人民检察院检察长曹建明的赞同与支持,由此开启最高检与科大讯飞的全面战略合作。

    在高检院的统一战略部署下,科大讯飞协同高检院信息中心智能语音工作组,征询高检院各业务单位的建议,赴全国四级检察院进行实地调研,并将安徽省人民检察院作为智能语音试点首家单位启动试点。在安徽省试点成果的基础上,结合各省检察信息化工作特色,高检院统筹规划,选取新疆、浙江、江苏、贵州等地检察机关作为首批智能语音试点单位,推进智能语音技术与检察工作的进一步融合。

    2017年7月,高检院发布《全国检察机关智能语音云平台建设指导方案》。方案依据最高人民检察院《“十三五”时期科技强检规划纲要》要求,立足检察工作实际,打造涵盖智能语音云基础服务系统、智能语音云处理引擎、智能语音应用系统、语音自学习服务、监控管理系统、语音数据交换系统及安全保障系统等在内的智能语音云平台,在全国检察机关开展智能语音技术应用。

    全面建设  落实应用

    智能语音技术在全国检察机关全面应用

    目前,基于智能语音云平台开发的检务智能输入法、智能会议系统、讯(询)问系统、双语系统等以智能语音为核心的系列智慧检务产品,其应用范围已涵盖全国检察机关,形成安徽全面应用、新疆特色应用、其他省市试点应用的部署应用格局,智能语音技术正逐步融入办公办案的各个环节,获得一线检察官的肯定。

    微信图片_20170925100304检察官正在使用检务智能语音输入法

    目前,以智能语音技术为核心的各项智慧检务产品的应用范围已覆盖高检院本级机关和安徽、新疆、浙江、江苏、贵州等全国18个省份的100余家检察院。其中,安徽省检察机关累计部署智能语音系统近8000套,检务智能语音输入法的安装使用率超过85%(截止9月20日)。

    此外,针对民族地区因语言不通造成的沟通不畅、办公办案效率不高等问题,科大讯飞研发出双语翻译系统,目前已实现维语和汉语的实时翻译,并可在双语模式下开展审讯、会议办公等工作,有效解决了语言沟通的障碍。

    优势互补  深化应用

    智慧检务创新研究院”成立

    2017年9月21日,最高人民检察院发起成立智慧检务创新研究院,并联合中国人民大学、科大讯飞、航天科工集团签署战略合作协议。这是近年来最高检首次与产、学、研单位合作成立创新性组织,不仅是国家级的“检察科技智库”,也是开放性的“产学研用联合创新平台”和行业性的“应用实验孵化中心”。

    微信图片_20170925100344

    科大讯飞与最高人民检察院签署战略合作协议

    当前,科大讯飞正在打造智慧公诉一体化平台,将人工智能技术深度融入到证据审查、提审、出庭以及领导决策等全业务流程,并在案管、控申以及民行等领域开展创新性应用开发,将人工智能技术融入到检务工作的方方面面。

    微信图片_20170925100402

    智慧检务创新研究院正式揭牌

    人工智能技术在检察领域的应用与发展,需要集结先进的算法、海量的数据以及行业专家知识。目前,科大讯飞正持续提升常识推理能力、知识发现能力和机器阅读理解力等三项核心能力,而高检院与中国人民大学、航天科工、科大讯飞共同建立的智慧检务创新研究院,四方强强联合,通过发挥各自优势构建产学研用生态圈,势必在国家人工智能科技研发、全球司法领域人工智能发展中发挥示范与引领作用。

    未来,科大讯飞将拓展智能语音技术在检察工作中的应用范围,推进智能语音技术与检察业务的深度融合,用人工智能持续助力智慧检务建设。

     

    科大讯飞教你如何化解语音助手的“重大安全漏洞”

    近期,几篇名为“语音助手存在重大漏洞,黑客可以这样攻击你的手机”以及“海豚攻击,攻破你的语音助手”等类似文章广泛传播,文章中提到已攻陷了包括Siri、Alexa、Cortana、Google Assistant等知名语音助手,让大家对语音交互的安全性不免又增添疑虑。

    今天,我们特意邀请了了科大讯飞资深科学家、研究院副院长王海坤来给大家解析一下什么是“海豚攻击”,它的产生原因和潜在威胁,以及如何化解这个所谓的“重大安全漏洞”。

    1什么是“海豚攻击”

    这个名词源于论文“DolphinAttack: Inaudible Voice Commands”,该文章已经被网络安全领域四大学术会议之一的ACM CCS(Conference on Computer and Communications Security)接收,目前已经可以在arxiv上下载到。

    这里面的关键词“DolphinAttack”,即“海豚攻击”源于一种现象,即海豚能发出超声波来攻击目标鱼群进行觅食,而这种攻击也正是借助了超声波。

    提到超声,这里先科普一下声音信号的频带分布、相应的名称和性质。

    当物体振动时会发出声音。每秒钟振动的次数称为声音的频率,它的单位是Hz。我们人类耳朵能听到的声波频率为20Hz~20KHz。当声波的振动频率大于20KHz小于20Hz时,我们就听不见了。

    我们把频率高于20kHz的声波称为“超声波”。超声波具有方向性好,穿透能力强,易于获得较集中的声能,在水中传播距离远等特点,通常用于医学诊断的超声波频率为1MHz~5MHz。

    频率低于20Hz的声音称为次声。次声特点是来源广、传播远、穿透力强,不容易衰减,不易被水和空气吸收。某些频率的次声波由于和人体器官的振动频率相近,容易和人体器官产生共振,对人体有很强的伤害性,危险时可致人死亡。

    这篇文章里提到的“海豚攻击”就是用到了超声的基本原理,其技术实现思路是:

    步骤1:把正常的频率范围的语音信号(用于语音识别的语音一般是16KHz采样,由奈奎斯特率可知其信号的最高频率是8KHz,这里称为Baseband信号),利用幅度调制的方法把Baseband信号调制到超声范围,该超声信号称为载波(Carrier)。

    这么做主要目的是把信号调制到被攻击的用户无法听到的超声波范围。下面就是幅度调制的原理图。

    步骤2:利用超声发射器来发射调制后的超声信号,冲击被测设备。通过设备端自身的录音系统实现对Baseband信号的解调,从而实现对设备的控制。

    搭建一套这样的超声冲击测试系统,需要以下几个设备:

    信号源:用来产生Baseband测试信号,用普通手机就可以。

    信号发生器:用来产生超声信号,并把Baseband信号调制相应的中心频率。

    功率放大器:用来对超声载波信号进行功率放大。

    超声扬声器:用来播放超声载波信号。

    文章中还提到可以做成一个简化装置,成本在3美元以下:

    根据文章作者的介绍,该系统成功实现了对于Siri、Alexa、Cortana、Google Assistant的控制,甚至奥迪Q3的语音功能也能操控,进行了打开飞行模式,拨打特定号码等操作。

    基于此,文中观点认为“基于该漏洞,黑客可以实现利用它上一些恶意网站,利用它打一些乱七八糟的电话。甚至,如果有些系统里的语音购物、支付功能够便捷,分分钟你的钱就没了”。

    2“海豚攻击”为什么能实现

    这里我们来分析一下我们常见支持语音控制的系统,包括手机、汽车、智能硬件有什么缺陷,导致让黑客可以有机可乘。

    首先看一下我们的语音控制系统的录音(Voice Capture)有哪些环节:

    从上图种可以看到,录音系统包括了:

    a) 麦克风:Microphone,用于把声压信号转换为模拟电信号。

    b) 放大器:Amplifier,用于模拟信号的增益放大。

    c) 低通滤波器:Low pass Filter,用于过滤高频无用的信号。

    d) 模数转换器:ADC,用于把模拟信号采样为数字信号。

    在录音系统的各个环节中,“海豚攻击”有几处风险可以利用:

    a) 该文章作者的观点是,麦克风本身的非线性会对载波信号实现部分解调。

    b) 实际上更为重要的原因在于目前主流的设备的录音系统一般采用的是一阶低通滤波器,过渡带太宽,从而导致高频信号不能有效的过滤;再加上市面上大部分的录音设备的ADC的抗混叠滤波效果有限,导致带外信号被混叠到Baseband里面,从而客观上实现了信号的解调。

    3“海豚攻击”的局限性分析

    上面谈到了“海豚攻击”实现的基本原理。但是经过我们的分析,这种“漏洞”虽然理论上存在风险,但是实现代价较大,且整体可行性较低,大家不必过于恐惧。下面我们再来分析一下它能实现的效果的局限性:

    局限性1: 测试设备发射要求高,不易隐藏作案。

    首先,该系统需要一个大功率且大尺寸的信号发生器来生成高质量的超声信号;同时,目前的普通麦克风对20KHz以上的信号频响衰减非常大,这就要求超声信号的发射功率有相当大的发射功率。

    这篇文章中使用的超声发射器可以支持到300MHz的频率范围,超声播放的声压级达到了125dBL,这种情况下普通的简化装置的放大器和喇叭是实现不了的。

     

    局限性2: 攻击距离很短,智能家居产品不受影响。

    同样是由于目前普通麦克风对20KHz以上的信号频响衰减非常大,在声压级是125dBL的播放的超声信号下(这个音量已经需要非常专业播放设备了),实验的最远冲击距离只有1.75m,对于大部分设备超过0.5m就没有响应了,再加上超声信号没有穿墙能力,因此对于放在家中的智能硬件设备是没有任何影响的。对于携带到公共场所的手机和可穿戴设备则有一定的“风险”。

     

    局限性3: 攻击语音质量很低,效果和单个硬件相关。

    如前面我们的分析,由于解调后的信号毕竟是经过低通滤波器,导致各频带都是有不同程度衰减的,且大部分ADC都有抗混叠滤波,因此最终设备端解调进来的Baseband信号失真很严重,信噪比也不会很高。

    攻击效果也跟硬件本身相关,比如麦克风型号、低通滤波器的实现方式和效果、ADC抗混叠效果和采样频率都是相关的。想要达到好的效果必须根据实际的硬件来调节载波频率,信号强度等参数,这对于公共场所游走作案,且不知道被攻击者使用的什么设备的情况下是比较难以实现的。

    4声纹+语音唤醒,完美解决“海豚攻击”

    通过上面的分析,我们知道“海豚攻击”只是在理论上存在风险,但是有没有办法来从根本上解决该问题,做到万无一失呢?这里就从硬件设计和软件实现上谈一下解决方案。

    硬件解决方案:

    a) 再增加一个低通滤波器,进一步减少高频成分的泄露。

    b) 采用抗混叠更好的ADC,进行更严格的抗混叠测试。

    c) 采用更高的采样频率,比如采样率是16K的话,16~24K的信号就能混叠进来。如果采样率是48Khz的话,要24Khz以上的信号才有可能混叠进来。实际上24Khz信号要发射和采集都要困难很多。

    d) 采用动态的采样频率,让攻击者无法及时调整。

    声纹+唤醒解决方案

    从硬件解决方案上可以看出来需要对整体硬件进行重新的设计开发,难度相对较大,且周期长,对于存量用户无法保证绝对安全。我们这里引入一种思路——通过声纹+唤醒的思路来保证个人或家用设备不被陌生的语音攻击。

    声纹识别是一种通过语音信号提取代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等),进而识别出说话人身份等方面的技术。它广泛应用于信息安全、电话银行、智能门禁以及娱乐等领域。

    声纹识别所提供的安全性可与其他生物识别技术(指纹、掌形和虹膜)相媲美,且只需或麦克风即可,无需特殊的设备,数据采集极为方便,造价低廉,是最为经济、可靠、简便和安全的身份识别方式,并且是唯一可用于远程控制的非接触式生物识别技术。

    科大讯飞在声纹识别方面一直处于技术领先的地位。 在2008年6月,讯飞参加NIST(美国标准技术研究院)举办的说话人识别声纹识别大赛(SRE)中,在3项关键指标中,获得两项第一,一项第三,综合评比第一的好成绩。

    目前科大讯飞推出的声纹+唤醒的方案用户只需要对着自己的硬件设备说出3~4遍唤醒词即可完成声纹注册。使用的时候,用户也只需要对设备说出语音唤醒词即可,和目前的语音唤醒方式保持一致,不会带来用户的使用成本。

    声纹识别正确率达到98%,目前基于讯飞的数字密码声纹引擎,已经成功用于中国移动飞云业务。

    目前我们的远场声纹唤醒技术已经成熟,相关产品方案也在研发之中,将唤醒词作为声纹识别的文本,实现唤醒后对唤醒人身份的鉴别。此方案很快就会与大家见面,届时还会有专家为大家解读声纹唤醒的奥秘,敬请期待。

    关注科大讯飞智能硬件公众号

    我们会及时推出更多的语音知识课程!

    脑洞大开!日本推出可穿戴机械手臂 人类或有“第二双手”

    最近,日本的几名科研人员设计出了一款可穿戴机械手臂,或许在不久的将来,这“第二双手”能够让你的生活更加方便。

    在你手忙脚乱的时候,有没有想过,要是再多一双手该多好!现在,你离梦想已经不远了。最近,日本的几名科研人员设计出了一款可穿戴机械手臂,或许在不久的将来,这“第二双手”能够让你的生活更加方便。

    据《每日邮报》报道,日本的科技宅们最近又发明了一个神乎其技的黑科技:可穿戴式机械手臂!这种可以穿戴的机器手臂,能够缓解手不够用的限制。这群研究员设计的机器手臂名叫“metalimbs”,看起来像假肢,但是却比假肢高级多了。

    这对手臂可以绑在使用者的身上,传感器安装在使用者的脚趾和膝盖上,通过脚趾和膝盖的弯曲传感到手臂上进行操作。

    整套装备中还包括袜子,在这双看似普通的袜子中也有感应装置,可以帮助装置探测到脚趾的位置,从而发出准确指令。

    《我是未来》科学家预言:“同传”或将全部下岗

    本周,《我是未来》将迎来史上最强的比拼“人机大战”。“音控”——科大讯飞首席科学家胡郁博士和“颜控”——旷视(face++)联合创始人印奇将带着各自领域最尖端的高科技产品现身舞台,与人类展开“速记”、“识颜”等方面的对决。演讲环节,胡郁博士更直接运用了智能科技“同传”,这也预示着在不久的将来人类同声传译或将全部下岗。

      人机大战一触即发 谁将取得最终胜利

    随着科技的高速发展,“人工智能与人类的关系将如何发展”越来越被人们所关心和重视,湖南卫视《我是未来》节目也就这方面的问题展开了多次探讨。相较于前几期的“和谐”,本期节目“人与机”双方将正式走向“对立面”,一场史上最强的人机大战即将上演。

    针对胡郁博士带来的“实时语音转文字”技术,90后速记员将向其发出挑战;面对印奇“人脸识别”技术的“来势汹汹”,特效化妆师也表示“不服”,并制作出“以假乱真”倒模希望让其“混淆”。。。。。。面对如此强劲的人类对手,“人工智能”能否再度赢得比赛胜利?

      胡郁演讲全程“智能”同声传译 人类同传或将全部下岗

    在第三张卡牌环节,科大讯飞首席科学家胡郁博士带来了一件“秘密武器”——只要动动嘴,语音便能瞬时转化成文字,并实时进行外语翻译的一款智能语音软件。胡郁博士一边演讲,大屏幕上一边精准地将其演讲的内容变成文字展现了出来。不仅限于有相同的中文出现,中文的下方还智能“同声传译”了相同意思的英语,看得现场观众和体验官震惊不已。

    同声传译一直是一项非常艰巨的工作。在各种需要同传的场合,国际会议或者其他,人类同声传译需要十分努力,以“闪电般的思维”和高超的语言技巧,克服多重任务间的交织与干扰去完成这项工作。因为难度大,同传被评为“全球稀缺人才”也是“最难培养的人才”之一。

    因为有了这个高科技的出现,一向“奇货可居”的人类同声传译将陷入窘局,日进斗金令人艳羡的“同声传译员”或将全部面临失业。这项职业往后将如何发展,我们拭目以待。

    据悉,《我是未来》“人机大战”将于今晚20:30在湖南卫视播出,更多精彩,敬请锁定。

    (责编:公莫舞)
    人工智能“沃森医生”来上海为肿瘤患者看病了

    人工智能正以超乎想象的速度进入人们的生活。如今,看病也能用上人工智能了。近日,名为沃森(Watson for Oncology)的肿瘤人工智能来到了上海。此前,“沃森医生”已经在全球 14 个国家的多个肿瘤治疗中心进行了临床应用,引发全球医学界关注。8 月 8 日,经临床初步应用后,“沃森肿瘤智能联合会诊系统”在同济大学癌症中心、上海市第十人民医院全面临床启动。

    沃森肿瘤联合会诊中心成立

    ► “沃森医生”是如何看病的?

    “沃森”是 IBM 公司研发的医疗人工智能,已经在美国顶级癌症中心——纪念斯隆 – 凯特琳癌症中心等 14 个国家的多个肿瘤治疗中心进行了临床应用。

    “沃森肿瘤智能联合会诊系统”能够对已诊断明确的肿瘤患者快速制定以循证医学为基础的、领先的、个性化的肿瘤治疗方案。

    医生向“沃森医生”输入患者的年龄、性别、体重等基本情况和癌症分期、局部复发、化疗方案、病理分期、癌症转移等多项具体情况后,只要短短十多秒,“沃森医生”就会给出治疗方案,这些方案包括:推荐使用方案、可考虑使用方案、不推荐使用方案。

    沃森肿瘤智能联合会诊系统

    那么“沃森医生”是如何做到这点的呢?原来,在上岗执业之前,它学习了美国纪念斯隆 – 凯特琳肿瘤中心的大量肿瘤病例、300 种以上的医学专业期刊、250 本以上的医学书籍、超过 1500 万页的资料和临床指南,而且它每月还在学习最新的研究成果。

    目前,“沃森医生”给出的治疗方案已经可以覆盖乳腺癌、肺癌、直肠癌、结肠癌、胃癌、宫颈癌、卵巢癌、前列腺癌 8 个癌种,预计 2017 年年底将扩展到 12 到 14 个癌种。

    ► “沃森医生”有哪些强项?

    上海市第十人民医院肿瘤科主任、同济大学癌症中心常务副主任许青教授向记者介绍说:在信息爆炸的当下,与人脑相比,人工智能在医疗文献的储存学习、对个体患者大量临床数据与某些特定肿瘤规范指南条款以及最新研究结果的计算分析匹配方面,具有超强的优势。

    人工智能的应用对肿瘤医生在选择治疗方案,特别是对相对早期肿瘤患者治疗方案的制定与选择上,具有极大的应用价值。

    据国外报道:“沃森医生”是美国纪念斯隆凯特琳肿瘤中心多年训练而成的,拥有极强的学习能力,

    它给出的治疗方案和顶级专家组所给出的治疗方案已经达到了百分之九十以上的符合度, 已逐渐成为肿瘤专家的重要智能助手。

    沃森人工智能给出的诊疗计划

    不过,“沃森”目前还只是医生的助手,医生还是会结合沃森出具的诊断方案,为患者量身定制个性化的治疗方案。

    ► “电脑 + 人脑”造福更多肿瘤患者

    我国每年有近 430 万新发生的癌症患者,每年有约 280 万人死于癌症,我国肿瘤患者的平均五年存活率只有 30% 左右。

    五年存活率不高的原因主要在于:一方面是体检还不是很完善,不少肿瘤都发现得比较晚;另一方面是肿瘤的平均治疗水平有限,有条件的患者可能到北京、上海等大城市甚至国外的大医院进行会诊,但一些普通患者由于资金、资源等条件所限,难以接触到国际一流的肿瘤治疗专家。

    未来,人工智能将为肿瘤患者与一流的医生、医院搭建直通桥梁,为肿瘤带来了更好更多的解决方案。

    上海市第十人民医院院长、同济大学癌症中心主任秦环龙教授表示:沃森肿瘤人工智能联合会诊中心的建立不仅将成为医院新的特色,成为医院在智慧医院建设与提升肿瘤治疗水平的里程碑,更重要的是,对肿瘤复发和转移的患者而言,人工智能可以给出更全面和更新的综合方案以备医生选择,为肿瘤患者尤其是晚期和转移的肿瘤患者带来新的希望。

    (文内图片由上海市第十人民医院提供)

    工信部新批新号段:物联网时代已来!

    8月7日,工业与信息化部颁布2017年第10批《中华人民共和国电信网码号资源使用证书》。

    移动通信号段方面,中国电信新获199号段、中国移动新获198号段、中国联通新获166号段。

    物联网号段方面,中国移动获得了148(0-9)号段(物联网业务专用号段)、1440(0-9)号段(物联网网号);中国电信获得了1410(0-9)号段(物联网网号);中国联通获得了146(0-9)号段(物联网业务专用号段)。

    148和146开头的11位号码后面是1个亿号码容量,1440、1410开头的13位号码后面是10亿号码容量。

    数量上,中国移动此次获得的物联网号段最丰富,包括一个11位号段,一个13位号段。

    工信部发放新的号码段,无非是几种原因:一、现有号码段饱和;二、新技术;三、引进新的虚拟运营商。

    之前工信部已启用1064物联网号段,这个号段与手机号码号段不同,是13位的。

    本次发放丰富了运营商的物联网号段资源,与此同时,三大运营商已经启动部署NB-IoT网络,全面迈进物联网新蓝海。

    此次物联网号段的发放,代表我们在物联网的道路上又前进了一大步。

    物联网时代已经到来!

    Google用于噪声语音识别的在线序列到序列模型

    近日谷歌团队发布了一篇关于语音识别的在线序列到序列模型,该模型可以实现在线实时的语音识别功能,并且对来自不同扬声器的声音具有识别功能。

    以下内容是 AI 科技评论根据论文内容进行的部分编译。

    论文摘要:生成模型一直是语音识别的主要方法。然而,这些模型的成功依赖于难以被非职业者使用的复杂方法。最近,深入学习方面的最新创新已经产生了一种替代的识别模型,称为序列到序列模型。这种模型几乎可以匹配最先进的生成模型的准确性。该模型在机器翻译,语音识别,图像标题生成等方面取得了相当大的经验成果。尽管这些模型易于训练,因为它们可以在一个步骤中端对端进行培训,但它们在实践中具有限制,即只能用于离线识别。这是因为该模型要求在一段话开始时就可以使用输入序列的整体,这对实时语音识别等任务来说是没有任何意义的。

    QQ截图20170701103241

    图. 1:本文使用的模型的总体架构

    为了解决这个问题,谷歌团队最近引入了在线序列模型。这种在线序列模型具有将产生的输出作为输入的属性,同时还可以保留序列到序列模型的因果性质。这些模型,如序列到序列是因果关系 – 模型在任何时间t产生的输出将会影响随后计算的特征。该模型使用二进制随机变量来选择产生输出的时间步长。该团队将这个模型称为神经自回归传感器(NAT)。随机变量用策略梯度法进行训练。使用修改的培训方法来提高培训结果。

    QQ截图20170701103319

    图. 2:熵正则化对排放位置的影响。 每行显示为输入示例的发射预测,每个符号表示3个输入时间步长。 ‘x’表示模型选择在时间步长发出输出,而“ – ”则表示相反的情况。 顶线 – 没有熵惩罚,模型在输入的开始或结束时发出符号,并且无法获得有意义的梯度来学习模型。 中线 – 使用熵正规化,该模型及时避免了聚类排放预测,并学习有意义地扩散排放和学习模型。 底线 – 使用KL发散规则排放概率,同时也可以缓解聚类问题,尽管不如熵正则化那样有效。

    通过估计目标序列相对于模型参数的对数概率的梯度来训练该模型。 虽然这个模型并不完全可微的,因为它使用不可差分的二进制随机单元,但可以通过使用策略梯度法来估计关于模型参数的梯度。更详细地说,通过使用监督学习来训练网络进行正确的输出预测,并加强学习以训练网络来决定何时发出各种输出。

    QQ截图20170701103352

    图. 3:在TIMIT上运行示例培训

    图3b和3c分别示出了混合比例分别为0.25和0.5的两种情况的训练曲线的实例。 在这两种情况下,都可以看出,该模型学习了过适合数据。

    谷歌团队还研究使用该模型进行噪声输入,其中以不同混合比例将两个扬声器的单声道混合语音作为模型的输入。

    实验和结果
    使用这个模型对两种不同的语音语料库进行了实验。 对TIMIT进行了初步实验,以评估可能导致模型稳定行为的超参数。 第二组实验是在不同混合比例下从两个不同的扬声器(一个男性和一个女性)混合的语音进行的。 这些实验被称为Multi-TIMIT。

    A:TIMIT
    TIMIT数据集是音素识别任务,其中必须从输入音频语音推断音素序列。有关训练曲线的示例,请参见图3。 可以看出,在学习有意义的模型之前,该模型需要更多的更新(> 100K)。 然而,一旦学习开始,即使模型受到策略梯度的训练,实现了稳定的过程。

    表I显示了通过这种方法与其他更成熟的模型对TIMIT实现的结果。 可以看出,该模型与其他单向模型比较,如CTC,DNN-HMM等。如果结合更复杂的功能,如卷积模型应该可以产生更好的结果。 此外,该模型具有吸收语言模型的能力,因此,应该比基于CTC和DNNHMM的模型更适合于端到端的培训,该模型不能固有地捕获语言模型。

    QQ截图20170701103947

    表I:针对各种模型使用单向LSTM的TIMIT结果

    B:Multi-TIMIT
    通过从原始TIMIT数据混合男性声音和女性声音来生成新的数据集。 原始TIMIT数据对中的每个发音都有来自相反性别的发声。

    QQ截图20170701104033

    表II:Multi-TIMIT的结果:该表显示了该模型在不同比例的混合中为干扰语音所实现的音素误差率(PER)。 还显示了深层LSTM 和RNN-自感器 的CTC的结果

    表II显示了使用混合扬声器的不同混合比例的结果。 可以看出,随着混合比例的增加,模型的结果越来越糟糕。 对于实验,每个音频输入始终与相同的混音音频输入配对。 有趣的是,可以发现,将相同的音频与多个混淆的音频输入配对产生更差的结果,这是由于产生了更为糟糕的过度配对。 这可能是因为该模型强大到足以记住整个翻译结果。

    QQ截图20170701104103

    图. 5:Multi-TIMIT的声音分布:该图显示了在TIMIT中发出干净话语的情况下发出令牌的概率以及Multi-TIMIT中对应的噪声发音。 可以看出,对于Multi-TIMIT语句,该模型稍稍比TIMIT语句发出符号要晚一点。

    图5显示了为示例Multi-TIMIT话语的模型发出符号的。 它还显示了与一个干净模型的发出进行比较。 一般来说,与TIMIT发出的模型相比,该模型选择稍后再发布Multi-TIMIT。

    结论:在本文中,谷歌团队引入了一种新的在线序列到序列模型的训练方式,并将其应用于嘈杂的输入。 作为因果模型的结果,这些模型可以结合语言模型,并且还可以为相同的音频输入生成多个不同的成绩单。 这使它成为一个非常强大的类型的模型。 即使在与TIMIT一样小的数据集上,该模型能够适应混合语音。 从实验分析的角度来说,每个扬声器只耦合到一个干扰扬声器,因此数据集的大小是有限的。 通过将每个扬声器与多个其他扬声器配对,并将每个扬声器预测为输出,应该能够实现更强的鲁棒性。 由于这种能力,该团队希望可以将这些模型应用到未来的多通道,多扬声器识别中。

    Windows 10源码泄露,微软要忙了,黑客要笑了
    这也许是最近10多年来Windows遭遇的最大规模的源码泄露。没错,包括核心代码,拿到这些代码的人可以审查寻找存在的安全漏洞,然后用来攻击全球各地用户的Windows系统,还能放心地使用windows么?
    111
    据theregister报道,已经有多达32TB的微软Windows操作系统的内部核心源码被人上传到了网上,对于不懂技术的普通人来说这也许不算什么,但对于苦苦寻觅Windows漏洞的人来说,这可是踏破铁鞋无觅处,得来全不费功夫。而这反过来也会对全体Windows用户的安全造成极大威胁。稍微好一点的消息是,相关网站目前正在撤除Windows代码中的非公开部分。
    据悉这些数据包含了官方和非公开版本的安装镜像和软件蓝图,压缩后总共有8TB,被上传到了betaarchive.com网站上面。最新一批文件是在本周早些上传的。这批机密数据据信是从今年3月左右微软的内部系统中泄露出去的。

    这些被泄露的代码是微软的共享资源包(Shared Source Kit),据看过代码的认识解释,这些代码包括是Windows 10的硬件驱动库以及Redmond 的PnP(即插即用)代码,Wi-Fi栈,存储驱动器以及ARM相关的OneCore内核代码。

    这意味着什么呢?意味着拿到这些代码的人可以审查寻找存在的安全漏洞,然后用来攻击全球各地用户的Windows系统。关键是这些代码属于WIndows操作系统的核心,而核心级代码的受信任等级是最高的。谁要是控制了这些代码,几乎就可以为所欲为。

    被泄露的Windows源码截屏:

    222

    除此以外,至今尚未公开发布的Windows 10以及Windows Server 2016版本也一并被泄露出来。这些机密的版本本来是微软工程师出于寻找bug和测试目的而开发的,里面包括了私密的调试符号,在公开发布时往往会剔除掉。但是对于黑客来说,那些符号往往能透露重要信息。

    举个例子,Windows 10 “Redstone”预发布版和尚未发布的64位ARM版Windows也在其中。考虑到被泄露出去的版本实在是太多了,估计微软已经没有办法启动安全启动机制来阻止用户启动预发布版的操作系统,也许会给黑客制造研究代码的可乘之机。

    一并被泄露出去的还包括了Windows 10 Mobile Adaptation Kit,这个机密的软件工具包可以让Windows操作系统在各种便携式和移动设备运行。

    尽管Beta Archive已经采取了部分措施,但是能访问其私有库的网民仍然可以免费下载上面现有的所有数据。Windows用户需要提高警惕,而微软看起来这段时间有得忙了。

    该文章转发自36k,如有侵权,请联系删除。(http://36kr.com/p/5080980.html)

    现场体验晓译翻译机后,外长王毅说:要把讯飞这个系统引入外交部!

    【观察者网4月12日报道 采写/温刚】“刚才我们看到的语音转换系统非常的实用,希望将来我们的外交系统能够尽快的用上安徽生产的语音转换系统”。4月11日在外交部举办的安徽全球推介活动上,外长王毅如此点评科大讯飞在人工智能方面的发展。

    以霸气、睿智等诸多特点收获大批粉丝,并被许多人称为“男神”的王毅外长不仅在外交上金句频出,也十分关注和支持民族创新企业的发展。资料显示:科大讯飞前身为安徽中科大讯飞信息科技有限公司,成立于1999年12月30日,2014年4月18日变更为科大讯飞股份有限公司,目前是一家专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级骨干软件企业。

    4月11日,外交部举办安徽全球推介会,外交部部长王毅亲临现场,参会嘉宾除安徽省主要领导外,还有各国驻华使节、国际组织负责人、外交部主要负责人、部分世界500强企业负责人,以及中外媒体等共计数百人。

    在参观科大讯飞展区时,王毅部长观看讯飞听见系统的演示,并接过话筒亲自体验,说出“安徽是个好地方。我们都喜欢安徽,也都祝福安徽,安徽有着非常美好的未来”后,讯飞听见系统的大屏幕上立刻准确地显示出中文和英文翻译的文字。

    此外,科大讯飞执行总裁胡郁为王毅部长介绍和演示了晓译翻译机,给王毅部长留下了深刻的印象。随后,王毅部长在致辞中积极评价科大讯飞在人工智能方面的发展,表示“刚才我们看到的语音转换系统非常的实用,希望将来我们的外交系统能够尽快的用上安徽生产的语音转换系统”。

    观察者网采访获悉,科大讯飞作为中国智能语音及人工智能产业领导者,核心技术已走出国门、处于立在世界前列,占有中文语音技术市场70%以上的份额。此次安徽全球推介活动现场首次播放的面向全球的安徽对外宣传片里,科大讯飞的晓曼机器人也亮相其中。

    此外,科大讯飞带来了前不久在两会上惊艳亮相的讯飞听见与晓译翻译机产品。讯飞听见系统能实时实现中文语音转写,并能同步提供中英、汉维、汉藏、日、韩等语种的实时翻译。晓译翻译机通过语音输入可实时进行中英和汉维翻译。该款翻译机已在互联网上已发热议,有网友戏称:“想做同传的好惶恐,学了辣么久还得专门训练一两年,到头来还不如个机器!”

    据中国经济新闻网此前报道,支持汉英、汉维、汉藏等多语种双向互译的神器——晓译翻译机背后有一段故事。

    2010年,科大讯飞和新疆大学联合成立的“新疆大学讯飞语音及语言联合实验室”正式揭牌,聘请吾守尔•斯拉木院士作为联合实验室首席专家。联合实验室的成立整合了科大讯飞的核心技术优势及新疆大学在维吾尔语、哈萨克语、柯尔克孜语、阿拉伯语等语言方面的资源与技术积累,面向中央和地方的重大战略需求,开展多民族语音及语言核心技术研究。经过联合实验室刻苦攻关,多语种智能语音技术不断突破并在教育、多语种翻译、公共安全等领域得到了应用落地推广。在教育方面,目前为全疆近30000个班级配备智能语音教具系统,很大程度上改善了课堂双语教学环境。

    2015年,科大讯飞与新疆大学联合举办“丝绸之路经济带‘多语种语音云’发布会”,正式发布全球首个多语种语音云,多语种研究取得重大进展。这一系列重大技术突破是汉维翻译目前业界唯一达到实用门槛的技术,最有代表性的莫过于已经量产的晓译翻译机。2016年年4月26日,习近平总书记在安徽合肥观看了多语种翻译的演示,对讯飞率先推出的汉维翻译机,给予了高度评价和殷切期望:“以后援疆干部都可以使用”,认为这是安徽对援疆工作做出的重大贡献。

    此次外交部举办“开放的中国:锦绣安徽迎客天下”的全球推介活动对中国企业是一次难得的“走出去”的机遇,也让各界感受民族创新力量所带来的震撼。观察者网获悉,安徽省区域创新能力连续5年居中部第一位,全省有各类专业技术人员224.6万人,科研机构4817个。有国家大科学工程5个,国家重点工程实验室23个。2016年获授权发明专利1.53万件,居全国前列,战略性新兴创业产值突破万亿元。

    相关资料:《CGTN探访讯飞AI 美女记者体验新型翻译机》

    中国环球电视网CGTN是中国中央电视台对外的新国际传播机构,包括6个电视频道、3个海外分台、1个视频通讯社和新媒体集群,面向全球观众提供专业、丰富的内容服务。3月底,CGTN探访科大讯飞北京分公司,体验了讯飞的全学科自动阅卷系统、晓译翻译机以及讯飞听见等最新人工智能技术与产品。

    机器阅卷达到评分专家水平

    CGTN记者在科大讯飞北京分公司体验了讯飞全学科自动阅卷系统,该系统是“讯飞超脑”计划的阶段性成果,融合了科大讯飞业界领先的手写识别技术、自然语言理解、智能评测技术,可以对国内主流的各种纸笔考试进行阅卷评价。

    系统不仅可以识别手写字体,将手写答案和标准答案对比并进行打分,还可以同时对客观题和主观题的答案进行打分。它的优势在于可以大幅度降低人工阅卷的工作量,提供统一稳定的评分标准,提升主观题的阅卷质量;并且能够挖掘试卷作答的数据价值,更有针对性地提升教学质量。

    “新华视点”曾还原去年习近平考察科大讯飞的一幕:展台前,一个圆头圆脑的机器人说:“总书记您好,我是小曼,我们早就期盼您的到来了,我也很高兴能加入到实现中华民族伟大复兴的进程中来。”机器人佳佳说:“见到敬爱的总书记真开心。佳佳祝总书记天天开心。”科研负责人介绍了语音合成技术,习近平询问仿真率多少,成本怎么样,商业前景如何。

    服务国家“一带一路”战略 布局国际市场

    “我有糖尿病,有一些食物我不能吃。能帮忙推荐一些健康的菜给我吗?”晓译翻译机准确把这句话翻译成英文后,记者惊呼“Wow!It’s almost the same!”

    对此,科大讯飞高级副总裁江涛介绍道:“中国正在推行‘一带一路’,正致力于连接海外60余个国家的交流,因此在‘一带一路’中首先需要解决语言障碍,减少交流成本。”科大讯飞将会持续在技术上不懈耕耘,完善产品,提供更多语言的翻译。今年两会期间,国务院总理李克强亲自体验了科大讯飞的翻译技术——晓译翻译机,并多次关切地询问核心技术和产业应用情况。

    据媒体报道,讯飞高级副总裁江涛接受采访时表示,人工智能可以将人类从重复性的脑力劳动中解放出来,将更多精力放在具有独创性、灵感和想象力的工作上。中国的人工智能已经有了坚实的发展基础,可以应用到多种领域,如教育,医疗,智慧城市,汽车行业等等,这个进程中科大讯飞有幸参与其中。

    科大讯飞作为中国智能语音与人工智能产业领导者,在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果,并不断开拓国际市场。一组数据显示,截至2017年3月,讯飞开放平台在线日服务量超31亿人次,合作伙伴超过25万家,用户数超9.1亿。

    这次苹果没什么大动作,却满是小心思~
    2017-06-06 差评君 差评

    差评

    武装到牙齿

    是在害怕么

    今天是苹果 WWDC 17 大会的日子,差评团队这次受邀跑到了现场去感受了下,刚结束就赶紧来给大家讲讲大会的事儿~

    (赶来赶去,还是挺疲惫的。。。==!)

    不过在讲之前, 同事跟差评君说了件有趣的事:Chrome 竟然看不了直播。。。

    下面小字:

    Requirements: Live streaming uses Apple’s HTTP Live Streaming (HLS) technology. HLS requires an iPhone, iPad, or iPod touch with Safari on iOS 7.0 or later, a Mac with Safari 6.0.5 or later on OS X v10.8.5 or later, or a PC with Microsoft Edge on Windows 10. Streaming via Apple TV requires an Apple TV (2nd or 3rd generation) with software 6.2 or later or an Apple TV (4th generation).

    看了半天就是没有 Chrome 的影子,Chrome 用户表示哭晕在厕所。。。

    特么连 Edge 都支持,居然 Chrome 不能播放,差评君差点一口老血喷在了手机上。。。

    仔细一看,人家直播用的是 HLS 技术 。那什么是 HLS 呢,看下面这段话就明白了:

    好吧,原来是苹果自家的技术,难怪谷歌家的产品不支持了,就是不知道到底是哪边不肯支持哪边了。。。

    额。。。这都是题外话,让我们进入正题~

    毕竟是开发者大会,上来库克就吹了吹自己的平台有多少多少开发者,其中差评君印象最深刻的还是下至 6 岁上至 82 岁,都有人在开发苹果的 APP 。。。

    (尤其左边 10 岁的小朋友现在已经在 APP store 上有了 5 个 app了)

    听得差评君都想去试试开发了(只是开个玩笑)。

    Keynote 一共分成了六个部分,其实整个看下来,没有什么太大的爆点,不过也是有不少值得说说的地方。

    差评君来给大家划下重点

    Apple watch 有了个更智能的表面

    虽然 Apple watch 新系统 watchOS 4 这次依旧是日常出新表面,但是这次有一个比较特殊,那就是 Siri watch face:

    这个表面其实有点像一张张按顺序排列的卡片,它会根据时间来显示用户当前最需要的信息。

    差评君觉得这个对商务人士来说还挺有用的,只要一抬手就能知道现在该做啥或者接下来要去做啥了~

    当然,也可以根据交通情况来提醒你什么时候该出发了:

    不过这个表面估计一直要到秋天才能看到,现在还没出 watchOS 4 的更新。。。

    名字偷懒的 Mac 新系统

    用苹果电脑的差友们应该不陌生,苹果最近的几个系统代号都是美国的一些地名,比如 OS X 10.9 叫 Mavericks(是美国加州的冲浪圣地)、OS X 10.10 叫 Yosemite(是美国优胜美地国家公园),而最近的一个版本叫做 Sierra 。

    结果这次的新系统不知道是不是找不到新的地名了,干脆就叫 High Sierra (场下观众都笑了)。。。

    不过值得一提的是,新的系统还真的是比上一个版本高了不少。

    比如优化后的 Safari ,号称 JS 的表现比 Chrome 快了 80% ~

    (怕 Chrome 粉丝有意见?不存在的,人家都没法看直播。。。)

    当然差评君最震惊的还是新的文件系统 APFS(Apple File System),简直快到没朋友。。。

    现场给了个复制视频的演示,老的系统复制十几个视频的时候,我们还会很明显的看到读条动画,大概要等上个十几秒钟。

    结果同样的操作在最新的系统上,一瞬间就能完成。。。

    iOS11更新了不少东西

    先上图:

    其实这次 Keynote 花了大量的时间在 iOS 11 的介绍,按照这个顺序,我们稍微撸一遍,都不是太大改变,但都还值得一提~~

    比如,新的 iOS 的 iMessage 支持用 Apple pay 转账了:

    (苹。。苹果红包?)

    而通过 iMessage 收到的钱则会被放到一个叫做 Apple Pay Cash 的地方:

    (诶,这熟悉的味道。。。)

    赌五毛钱他们一定没用过微信。

    然后看到新 Siri 的图标了嘛?嗯,简而言之,Siri会更加的人工智能:比如说话会更加的抑扬顿挫模拟真人(中文版本仍然未知。。);可以作为实时翻译助手:

    然后,新的控制中心:

    贴心的安全驾驶模式,苹果会通过蓝牙状态或者WI-FI,来判断你是否是正在驾驶汽车,然后询问你是否开启这个功能:

    开启后:

    然后,令人惊讶的是,App Store大改版啦!!

    可能图片比较模糊,但应该能看的清:第一栏由以前的 “ 精品推荐 ” 变为了 “ Today ” ,第二栏由以前的 “ 类别 ” 直接变为了 “ Games ”,第三栏由以前的 “ 排行榜 ” 变为了 “ Apps ”

    嗯,啥意思呢?点开了 Today 的小卡片,它会变成一篇介绍的文章,然后底下有下载按钮。。。。内容创业啊!哈哈!

    AR能力的开放:更多是与开发者相关,但是朋友也许以后咱们玩的都是AR游戏了,现场就展示了一个小例子,在右边的桌子上,渲染出一个小村庄:

    你看,到了桌子边缘,人物还会掉落~~

    会后的体验环节,差评君还去试了下其他几个demo,只能说对于未来,我很期待!!

    这下真的是平板 “ 电脑 ” 了

    新的 iPad Pro 绝对算得上是不负众望,更大的屏幕、更高的配置不说,单是最高 120 Hz 的刷新率还带自动调整的新特性,就已经让人觉得一定要摸一下了!

    (屏幕变大,样子倒是毫无变化。。。)

    更高的刷新率除了意味着屏幕滚动更加平滑之外,还意味着写字的延迟更低了,这对用平板记笔记的用户来说,简直是一大喜事~

    不过更好的消息还在后头:

    在机器学习的帮助下,手写的笔记也可以被识别成文字,然后被查找功能查找到!

    再也不用担心笔记太多翻不过来了~

    而且还多了扫描功能,虽然之前有些软件已经帮苹果实现了,但是,自家的还真的很快啊。。。

    另外让人比较意外的是,这次 iPad 居然开放了文件功能,用户可以直接管理自己系统里面的文件了。。。

    再加上之前就已经有的分屏功能,现在的多任务工作方式,以及发布会各种大段文字拉过来贴过去,多张图片拉过来贴过去,iPad pro + iOS 11 给人的感觉已经不再是过去的平板了,而慢慢的更接近于一台触屏的电脑~

    One Last thing: Homepod

    嗯,网上很早就开始传来传去了,说苹果要出 Siri 扬声器,还在网上传出了各种谍照、概念图,比如这样的:

    (一看就知道是用 beatspill P的)

    还有这个看上去靠谱点的:

    结果没一个对的。。。

    实际上长这样:

    (现场实拍。。。)

    和前一张图比起来简直是高富帅和土肥圆好吗。

    甚至。。在发布会现场,有人找到了同款垃圾桶:

    (是不是很像。。。)

    别看这音响长得不好看,其实还挺厉害的,毕竟苹果一直都很追求音乐的享受,这个音箱的音质自然是不必说,看看结构就知道了~

    内部结构

    对,这是个很不错的蓝牙音箱!

    不过等吹完音质之后,接下来就不好好讲了,一页 ppt 就草草带过了智能助手部分。。。

    (甚至都没有做demo)

    等等,说好的是想跟 Echo 和 Google home 对着干的呢?

    听完它的名字你们就明白了,这货其实叫做 Homepod 。。。

    差友们知道 iPod 不?都是专门用来听歌的,所以看这名字,苹果是铁了心只想比音质了。

    不过话说回来,要说 Homepod 智能助手这方面是不是真的比不过另外两家,这也还不好说,毕竟谁也都还没真的试过最新的 Siri 对吧~

    然后花絮时间:

    Jonathan Ive变老了

    某中国开发者拿到了Tim Cook的签名

    那垃圾桶我去看了,真是越看越像。。。

    “ 买个音箱,还送个语音助手,这波不亏!”

    “在线教育”兵家必争 VIPKID“懂教育、爱孩子”

    据数据预测,少儿英语培训市场正以每年20%的速度递增,在诸多明星投资机构的助阵之下,VIPKID已经确立了强大的品牌优势和细分领域独角兽的地位,在过去的2016年,VIPKID每个月的市场增长率远远超过了行业平均水平。这源自VIPKID对教育和市场的良好把握,源自于VIPKID团队“懂教育,爱孩子”。

    懂教育爱孩子 VIPKID快速成长来源于专注

    北极光创投创始人邓锋曾经说道,“教育,不论是线上还是线下,最终的关键词还是在“教育”两个字上。品牌自于质量,因此用户体验和教学质量的提高最关键。把这些做好,市场是非常非常大的。”所以VIPKID自成立以来,并没有迅速的扩张企业规模,而是通过一年多的时间进行充足的市场调研,对教学产品进行一次次的更新迭代,最终在2015年初才开始正式上线产品。VIPKID现在的成功,不仅源于团队对教育和市场的深刻理解,更来自于VIPKID对教育质量的严格把控。

    “教育是个慢工出细活的领域。”VIPKID的C轮融资领投方,云锋基金执行董事李娜如此形容教育市场。这也恰好印证了VIPKID一直以来对于教学品质的严格追求。作为VIPKID创始人兼CEO,米雯娟曾经在线下教育做到年收入2亿的规模,但是她并没有把线下教育的成功模式照搬到在线教育领域,而是带领VIPKID团队对教学模式、学习方式进行了重新构建,让中国小朋友的学习体验得到了重塑。VIPKID的北美教师团队都有着非常丰富的教学经验,让孩子的教育更具有针对性;VIPKID的教研团队专门为中国孩子优化的遵循美国小学课程标准CCSS的课程,让孩子通过英语了解北美的文化,让孩子更爱学习英语。

    突破线下教育瓶颈 VIPKID在细分领域做透做强

    虽然线下教育市场的营收规模巨大,但是由于各种条件限制,线下难以分散和延展的瓶颈已经暴露出来。VIPKID团队在不断的调研中发现,线上教育的市场将是线下教育不可比拟的。米雯娟曾在采访中表示:“12岁以下的在线少儿英语培训领域,市场营收规模应该能接近20亿元,2016年我们达到了10亿元的营收,这就占据了超过50%的市场份额,VIPKID已经占据了市场的领先位置。”可见VIPKID三年的成长速度,已经超过了线下少儿英语教育公司几年甚至十几年的速度。

    同时,线上教育解决了传统线下空间、时间等问题,用户不断纵深,覆盖二、三、四线城市。线上教育在教育资源调动上的高效和便捷,为在线教育行业带来了想象,李娜曾说:“VIPKID的车上有 在线 和 教育 两个轮子,正在边换轮胎边奔跑。VIPKID不仅把体验、产品、口碑、服务做到极致,也有着比传统教育行业高出非常多倍的增长速度。” 根据数据显示,2015年3月,VIPKID旗下只有200名学员,两年以后,VIPKID的付费学员已经超过10万名,已经成为全球付费学员增长速度最快的少儿英语教育品牌,VIPKID已经在少儿英语的细分领域中做透做强。

    国内外顶级资本搭台 VIPKID用好口碑唱戏

    据数据显示,VIPKID在半年内销售额已经增长了16倍,这样的营收数据受到了海内外创投圈的一致关注。在三年之内,VIPKID以非常迅速的节奏完成了天使轮以及ABC轮的融资,在B轮融资时,更是得到北极光创投的二次追投,两次投资仅隔了三个月, 2016年的1亿美元C轮融资,更是迄今为止少儿英语教育最大的一笔融资,可以说,VIPKID在创投圈的表现已经足够亮眼。

    投资人的频频青睐,不仅来源于VIPKID优秀的营收状况,更是源自VIPKID在细分领域强大的品牌优势。鉴于其独特的商业模式以及强大投资团队的资金支持,这种品牌优势已经很难被其它竞争对手所撼动。VIPKID在互联网教育行业的激烈竞争中,已经收获了非常强势的增长空间。

    关于VIPKID:

    VIPKID是专注于4-12岁在线少儿英语教育的领导品牌,采用纯北美外教1对1在线授课模式,使用对标美国小学课程标准(CCSS:美国共同核心州立标准)的定制课程,运用高效学习第二语言的教学方法——浸入式教学法,让中国小朋友真正实现“美国小学在家上”。截止目前,VIPKID共有超过10万付费学员,北美外教团队超过1万人,且均来自美国和加拿大,学生续费率高达95%。

    2014年10月,VIPKID获得经纬中国领投、创新工场和红杉资本联合投资的500万美元A轮融资。2015年10月,VIPKID获得由北极光创投领投,经纬中国、红杉资本和创新工场的近2000万美元B轮融资。2016年4月,VIPKID再度获得真格基金的投资。2016年8月,VIPKID获得云锋基金领投,红杉资本跟投的C轮1亿美金融资,创造全球在线少儿英语教育最大单笔融资。2016年8月23日,科比宣布成立风险投资基金“Bryant Stibel”并战略投资VIPKID,这是继阿里巴巴之后,科比投资的第二家中国创新企业。美国教育风投基金Learn Capital促成了此次投资意向的达成,并共同参与了本次投资。2016年10月VIPKID联合Learn Capital、斯坦福大学教授、哈佛大学教授成立北美教育研究院。

    (原标题:“在线教育”兵家必争 VIPKID“懂教育、爱孩子”)

    Siri很高冷,语音助手真的能与人做情感陪伴吗

    无数人调戏Siri问她是否有男友,Siri总以机智的回答拒绝调戏。不过Vinclu公司的创始人Minori Takechi却从中看到商机。Takechi创造了“逢妻光”(Azuma Hikari),这个身穿迷你裙的卡通形象被媒体称之为专为宅男打造的二次元女友。这款售价2700美元的虚拟助手可以进行基本的对话,并可执行闹钟和开灯等基本功能。

    亚马逊和谷歌都在试图将自家语音助理产品推向消费者的客厅,但Takechi指出这些产品都只注重实用程序,却忽略了人们与数字助理之间建立情感关系的需求。

    “我的愿景是人们能够在未来世界中与虚拟角色共同生活。”29岁的Takechi说。“当下各种机器人都在试图进入人们的家,但很多都是无机和机械的,我怀疑人们是否会想与这样的东西沟通。”

    逢妻光以全息投影的方式出现在一个咖啡壶大小的玻璃瓶(设备名为Gatebox)中,逢妻光并不避谈情感话题。如果你向她表白,她会回答希望这份感情天长地久。

    日本宅男文化盛行。相比真人社交,许多日本未成年男性更喜欢与虚拟形象建立关系,因此卡通少女的形象可能在的日本大有市场。不过公司也计划提供包括卡通人物和体育明星在内的更多形象。

    除了Vinclu,另一家名为Groove X的日本初创公司也致力于情感机器人的研发。

    Takechi在2015年初开始募集资金,那时亚马逊Echo还没这么火,谷歌Home也未发布。尽管许多投资者并不看好硬件项目,但Takechi还是成功筹集了2000万日元(18万美元)。其中一位早期支持者为软银集团孙正义的弟弟孙泰藏。

    到目前为止,Vinvlu已从Primal Capital和Incubate Fund等投资方募集了约2亿日元。日本最大即时通讯软件公司Line发力AI,在今年三月收购Vinclu多数股权。

    “通过结合Gatebox的技术与我们的Clova AI科技,我们可以开发出一种新型的后显示、后触控式的虚拟助理,让用户的生活更加丰富有趣。”Line首席策略和营销官Jun Masuda表示。Line计划在今夏推出名为Wave的桌面智能音箱产品。

    目前Gatebox交互能力有限,距离提供真正的情感陪伴仍有很长的路要走。Line的支持无疑有助于补足Takechi在AI上的短板,为其提供接入更大生态系统的机会。在日本、台湾和印尼,有超过1.71亿用户使用Line阅读咨询、打车以及寻找兼职。

    不过并非所有投资者都看好当下的智能助理浪潮。著名风投公司Andreessen Horowitz的合伙人Benedict Evans指出,虽然Siri和Alexa看似能回答任何问题,但用户能记住的语音指令有限,而且这些产品似人非人的特性也可能引起部分用户反感。

    Vinclu能回答的问题有限,不过说话非常“卡哇伊”,公司正在开发新的行为模式,试图让机器人偶尔的犯错行为不那么让人抓狂。以感情弥补技术不足:当虚拟助理没能打到Uber时,用户会善意原谅而非怒不可遏。

    童年时候的Takechi曾跟随妈妈在撒哈拉以南的马拉维打击疟疾。由于和当地人语言不通,Takechi终日呆在家里以与宠物小精灵为伴。这段经历给了他对“御宅”文化的最初体验,并为日后打造Gatebox埋下伏笔。

    “我们所致力的交流并非典型的‘问答’,卡哇伊才是最高目标。”Takechi说。

    联想拟四年内向人工智能等领域投资12亿美元

    【PConline 资讯】联想集团CEO杨元庆近日在接受媒体采访时表示,未来四年,联想将在人工智能(联想AI)、物联网和大数据方面投资超过12亿美元(约93亿港元)。至2021年3月,上述款项将占总研发预算的20%以上。

    另外,至2021年3月,联想集团每年研发开支将约为15亿美元。其中有超过两成将用于人工智能及物联网等研发项目。同时,联想集团将与谷歌、亚马逊在产品开发方面合作,促使来自智能手机和其他新业务的营业收入占总营收的比例能提高至50%。目前,上述比例为30%。

    这不是联想集团第一次展露出在人工智能领域的野心。智通财经获得的资料显示,其在这方面的布局可从2016底开始追溯:

    2016年11月,联想集团请来前微软亚洲研究院常务副院长芮勇将担任联想集团高级副总裁兼首席技术官。在加入联想之前,芮勇在微软任职了十余年,领导关键的人工智能团队和研究院的所有工程团队。

    今年2月,联想集团亦在其2016/2017财年第三季度业绩报告中提到,集团将开发新的智能设备,由云提供支持并配合云服务。此外,集团正在探索智能家居、智能办公室、智能医疗及其他领域。

    一个月后,联想宣布成立人工智能实验室,由曾担任德国人工智能研究中心首席研究员的徐飞玉作为副总裁负责实验室的研发工作。徐飞玉在多语言信息系统、文本挖掘、大数据分析、商务智能、问答系统以及NLP技术移动应用等领域拥有丰富的经验。

    近日,杨元庆又透露未来四年,联想将在人工智能、物联网等领域投资超过12亿美元。由此可知,联想集团在人工智能领域的筹码正越加越大。

    根据杨元庆的预期,未来笔记本电脑将变得越来越个人化。联想集团为开发人工智能(联想AI)技术的终端,正计划与美国企业开发新软件。并且联想会寻求开发新系统,利用人工智能技术连接个人电脑、电视、智能电话及车载娱乐设备,共同推进联想AI在IT领域当中的位置。

    BAT巨头争相布局 “语音助手”将会是下个移动搜索入口 ?

    就在前不久腾讯正式推出了智能语音助手“腾讯叮当”,其功能与亚马逊Alexa类似,也是具备精准的前端语义识别,并能提供迅捷精准的互动反馈的人工智能助手。

    谷歌、微软、苹果等各大公司的语音助手,自从上线以来一直被当做调戏工具。这些语音助手除了要“照顾”用户的生活起居工作出行,同时还要承担为用户解闷的存在。

    亚马逊的Echo成功代替硬件 成为语音助手的爆发点

    如今的语音助手在数字化时代,经过多年的技术累计后,似乎已经来到了春天。虽然不少巨头都在布局智能语音助手,但其真正的爆发点来源于今年的CES上的亚马逊Alexa。

    亚马逊并没有参加今年的CES,但Alexa却伴随着智能汽车、智能音箱、智能冰箱、智能扫地机器人等硬件出现在展台。语音助手首次成为代替硬件的交互新入口,原因是Alexa语音交互特征为众多生活场景提供了便利。

    随着这个爆发点的来临,语音助手似乎也成了互联网领域的热点。苹果的Siri,谷歌Assistant,微软小娜,就连三星Galaxy S8也发布了自己的Bixby智能助理。近年来国内也是陆续的出现了,百度的度秘,搜狗语音助手,讯飞语音助手等等,其中不乏IT巨头与BAT互联网大佬等等。

    放眼全球IT市场,BAT都在抢滩布局人工智能。语音助手实际上解决了很多场景的智能设备功能痛点。比如,智能家居的操控、辅助驾驶的交互等等,而NLU(自然语言理解技术)和海量的语料标注数据支撑起整个基础的语义识别技术。

    市场年化增长60% 互联网下个移动入口“语音交互”

    来自国际市场研究公司RAM(Research and Markets)发布的《全球智能语音产业报告2015——2020》认为,未来三年,全球智能语音市场规模将达到191.7亿美元。而中国的市场,将保持每年60%的增速成长。

    语音交互将会成为数据智能的爆发点,下一轮的入口之争将再次出现。现在手机、电视、汽车以及各类可穿戴设备,交互方式大多还是靠手指输入,这已经成为局限人机交互升级的瓶颈。

    未来,我们同机器之间的交流,将和人与人之间的交流毫无差异,可以手势、打字、语音、视频甚至是一个眼神。这些场景的实现,有赖于大数据技术的飞速发展。

    但语音交互或者说语音识别技术的门槛在于其识别率和语义分析可能并达不到想象中的完美。多位语音识别的领域专家曾指出,“目前一般远场识别的错误率是近场识别错误率的两倍左右”,而同时,面临中华文化博大精深的语言系统,机器往往无法识别出不同场景下的同一个词语的语义。

    提起语音识别的应用,你最容易想到的例子可能是不会讲笑话的Siri,而像Siri这类语音助手是科技巨头们竟相争夺的领域,Google有Assistant,亚马逊有Alexa,微软有Cortana,Facebook有Jarvis,它们当中已经与应用场深度结合的当属亚马逊配备智能助理Alexa的Echo音响。

    最火的Echo智能音箱 强项是“远场识别”

    Google Home内置的Google Assistant可以控制智能手机、智能手表以及其他设备,使用自然语言与用户对话,执行寻找信息、播放媒体内容、买电影票等任务。在Google Home推出之前,搭载了Alexa的亚马逊Echo是智能音箱领域当之无愧的王者,Echo是硬件Alexa是语音助理。

    亚马逊Echo的语音识别技术有一项较强的优势,就是远场语音识别。所谓远场语音识别,是指解决远距离语音识别的问题,以保证真实场景下的语音识别率。今天大多数的语音识别是近场识别(即近距离的语音识别,例如Siri),远场识别的错误率目前一般是近场识别错误率的两倍左右,所以在很多情况下语音识别系统还不尽如人意。

    亚马逊采用麦克风阵列来解决远场语音识别的问题,麦克风阵列是由一组按一定几何结构(常用线形、环形)摆放的麦克风组成的,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。

    语音只是“点对点”信息传输 人工智能协同才是重点

    从观国内BAT三大巨头,最大布局语音助理的应该是阿里巴巴,其次是百度的度秘,最后才是前不久腾讯发布的叮当。虽然腾讯看似是在语音助理行业涉足最晚的,但其实腾讯在人工智能行业的涉足也是不晚,并且AI Lab实验室的很多研究成果已经应用在了目前腾讯已有的各类产品上了。

    以国内BAT的竞争来说,百度近几年来在人工智能方面投入了巨大的精力,试图寻找下一个机会点。而其语音技术也已集成语音识别、语义理解、深度问答、多轮对话、情感分析、语音合成等能力,语音交互能力在搜索、地图等产品中均有体现。

    在吴恩达未离职百度时,曾就智能语音发表过看法,他认为语音识别现在最大的门槛是识别率和响应速度。这两个问题如果能从根本上解决,智能语音将会很大程度上改变人们的生活方式。

    而这些产品和布局,似乎都在为语音成为移动互联端的主角在不断前行。人们可以数出应用市场、浏览器、APP和手机桌面四个已经成型的移动互联入口,语音则是呼声日渐高涨的入口候选者。

    语音识别技术准确率在迅速提升,对各种声音的辨识度会越来越清晰,但是语音参与到互联网应用中还只是简单的信息传递环节,真正实现智能交互需要人工智能的协同。比如在通过智能音箱实现叫车、叫快递等环节,语音接入实现的是简单的点对点信息传输,没有智能的处理能力。

    总结:语音识别将是未来人机交互的入口,所以它是各大科技巨头在人工智能科技研究的首要技术。它的应用范围将十分广泛,在智能助理、智能家庭、智能汽车、教育等领域都有极大发展空间。但仍然有远距离识别、噪音识别、口音识别,以及语义理解等难题需要人工智能科学家们攻克。

    可以确信的是巨头都在布局的“语音助手”将是下个移动搜索入口,但移动搜索入口则对距离和噪音识别的依赖度并不高。解决“口音识别”才是现在掣肘语音助手成为移动搜索的核心。简单来说,就是如何解决中文语言系统的识别,因为机器往往无法识别出不同场景下的同一个词语的语义。

    全球最大互联网盛会GMIC上,哪些讯飞元素最吸睛?

    4月27日,2017GMIC全球移动互联网大会在北京国家会议中心盛大启幕,本次大会以“天·工·开·悟” 为主题,汇聚全球科学界、企业界以及投资界的领军人物,深度探讨了人工智能产业的创新与发展。科大讯飞作为本届大会的重点邀约企业,通过各具特色的产品和精彩纷呈的演讲,向世界展示了中国人工智能产业的非凡实力。

    在GMIC大会的展示区域,讯飞开放平台、讯飞广告平台、讯飞听见、讯飞输入法、配音阁、淘云科技、灵隆科技等科大讯飞各方面的技术成果一一亮相。科大讯飞展台汇集各具特色的人工智能“黑科技”,现场聚集了大批的观众,成了GMIC大会最热闹的展区之一。

    在27日晚上的GMIC X盛典上,讯飞输入法成功摘得GMIC“2017互联网时代年度十大最有价值创新产品”奖。该奖项评选基于互联网大数据分析,采用去中心化、去评委化的形式,以大众喜好为准则,全民参与评选,充分代表了当前广大网民的态度和想法。讯飞输入法产品经理翟吉博表示,讯飞输入法一直以来秉承科技改变生活之念,用人工智能的力量解决实际生活中遇到的难题,在产品的快速迭代中追求极致体验。

    同时,大会还设置了众多峰会与论坛环节,科大讯飞消费者BG执行总裁于继栋、教育BG副总裁钟锟、研究院副院长王士进等都带来了精彩的演讲。

    >>>> 科大讯飞消费者BG执行总裁于继栋:

    语义识别和人工智能挖掘泛娱乐产业金矿

    在全球未来娱乐峰会专场,科大讯飞消费者BG执行总裁于继栋带来本次分享的演讲主题《语义识别和人工智能挖掘泛娱乐产业金矿》。演讲中,于继栋畅谈了泛娱乐产业在人工智能时代的每一种可能。

    >>>> 科大讯飞教育BG副总裁钟锟:

    人工智能对于教育工作者,不是取代而是帮助

    他认为人工智能不仅仅是个现象或未来场景呈现,而是已经实实在在落地到不同应用场景的存在。人工智能+泛娱乐产业这样的结合,将会为娱乐场景提供更好的交互与体验。于继栋在GMIC峰会中正式对外发布了讯飞开放平台游戏语音解决方案,将智能语音与人工智能技术深入布局到游戏行业。

    >>>> 讯飞研究院副院长王士进:

    以人工智能技术为基础构建商业新生态

    在全球科学创新峰会G-Summit的会场,科大讯飞研究院副院长王士进分享了人工智能商业新生态的构建。王士进向与会人员介绍了科大讯飞最早提出的人工智能技术的三个阶段:运算智能、感知智能和认知智能,以及科大讯飞在人工智能技术方面的最新进展。

    王士进表示,科大讯飞智能语音及人工智能技术在国际赛事中屡屡夺冠,并且已经将技术广泛应用于互联网、家居、教育、车载、医疗等众多行业领域。“科大讯飞未来的目标是在中国,用人工智能改变世界。”

    >>>> 科大讯飞智能硬件业务总经理张陈:

    AIUI——重新定义人机交互

    除了对外提供人工智能技术服务外,讯飞开放平台还对外提供智能硬件及一站式交互解决方案AIUI。科大讯飞智能硬件业务总经理张陈以《AIUI——重新定义人机交互》为主题做了分享。“人机交互,是人跟世界打交道、信息交互的方法和接口。在万物互联的时代,人机交互的变化和趋势是越来越自然的语音交互。”张陈在分享中表示。

    >>>> 科大讯飞数字广告业务部总经理李平:

    AI时代,广告如何与用户更亲近

    在GMIC2017全球移动营销峰会上,科大讯飞数字广告业务部总经理李平受邀出席,并发表《A.I.时代,广告如何与用户更亲近》的主题演讲,分享了人工智能时代下讯飞广告平台打造数字营销新模式的前沿观点和最佳实践。

    A.I.时代下,传统广告模式已不能满足营销需求,面对来自消费者及行业需求的双重挑战,讯飞广告平台给出了自己的解决方案。依托于讯飞顶尖的AI和大数据技术,李平从智能决策、智能互动、智能分析三个维度,全面解析人工智能如何深入贯穿到广告投放的各个环节,打造一站式数字营销解决方案。演讲最后,李平更带来了讯飞RAIBOO大数据营销解决方案的实战案例分享,将线上线下数据完美融合,为数字营销带来巨大机遇。

    >>>> 科大讯飞数字广告销售总监潘峰:

    人工智能新技术,让数字广告更有趣

    在G-Stage开放式演讲活动上,科大讯飞数字广告销售总监潘峰受发表《人工智能新技术,让数字广告更有趣》的主题演讲。演讲中,潘峰不仅畅谈了近年来讯飞在人工智能领域取得的众多成果,更为大家展示了讯飞全新推出的语音互动广告,H5互动广告,视频互动广告以及明星特色合成广告等创意广告形式,不断颠覆我们对数字广告的认知。他认为,人工智能与数字广告的完美结合,智能交互模式的变革,即将开启全新的数字营销新时代。

    >>>> 科大讯飞消费者BG产品经理张磊:

    人工智能+配音领域新探索

    消费者BG产品经理张磊为大家带来了一场“人工智能+ 配音领域新探索”的演讲。张磊以科大讯飞人工智能产品配音阁为例,深度探讨了人工智能技术在配音领域的应用,及其最前沿的进展。张磊表示,作为语音合成技术的行业领先者,科大讯飞后续会与更多品牌探索新的商业合作模式,输出科大讯飞的语音技术与产品优势,实现跨领域的合作共赢。

    据了解,全球移动互联网大会(GMIC)是全球规模最大、最具影响力的创新科技盛会之一。自2009年第一届成功举办以来,GMIC已吸引全球超过60个国家、累计百万人次参与。2017GMIC覆盖特拉维夫、北京、东京、硅谷、雅加达、圣保罗、香港和班加罗尔 8 站,在2017GMIC北京大会上,超过500名演讲嘉宾在近30场主题会议上进行分享。

    GMIC作为全球规模最大、最具影响力的科技盛会之一,向世界展示着最新的科技创新成果。未来,科大讯飞的人工智能技术产品又将怎样改变中国历史?未来,GMIC上又将有怎样的讯飞元素让世界聆听中国声音?让我们一起,见证人工智能时代更多变革的发生!

    超过80%语音开发者的共同选择