高校三维虚拟实验员智能语音辅导系统的设计与实现

　　中图分类号：TP391.42 文献标识码：A 文章编号：1007-9416（2017）10-0164-02
　　随着以计算机多媒体技术、网络通信技术为核心的信息技术在教育教学领域的普及应用，学习资源内容和形式越来越丰富。教学方式不再局限于传统的课堂教学，网络教学也越来越广泛。但是随着研究的不断深入，基于计算机网络开展学习的也暴露出不足的地方，如：交互界面形式单一；交互手段单一；学生也缺乏身临其境的感觉等等。于是，如何将虚拟教师技术应用于三维虚拟学习环境中，使网络在线学习在虚拟教师的指导下进行，从而进一步增强教学互动，提高学生的学习积极性，成为重要的研究课题。
　　在二十世纪五十年代，美国贝尔实验室首先研究出了可以识别十个英文数字的语音识别系统，揭开了语音研究的新篇章[1]。二十世纪六十年代，人工网络的发展奠定了神经网络在语音识别中的地位[2]。在美国，较早从事虚拟教师技术研究的是佛罗里达州立大学教授贝勒[3][4]。在我国，则以科大讯飞等为代表的机构在语音研究中取得了较为领先的产品效果。正是因为语音技术的发展，“虚拟人”概念应运而生[5]。清华大学研究了基于人工智能情感的机器人控制体系，浙江大学则研究了虚拟人物构造[6]，从而奠定了本文的研究基础。
　　本文通过研究语音识别与合成技术，以科大讯飞提供的API作为支撑，将语音识别与合成技术应用到当今高校教育中，打破传统人机交互模式，实现了高校虚拟实验员智能语音对话系统，使得高校实验员的工作以及高校学生的培养更加人性化，极大减轻我国高校实验员在指导学生进行重复的基础实验过程中繁重的劳动。本文以《多媒体技术与应用》课程实验为示范，设计三维虚拟实验员实验教学过程。
　　1 语音识别技术及科大迅飞语音API
　　语音技术中的关键技术主要有语音识别技术和语音合成技术。语音识别技术主要是通过计算机将声音识别成相应文本文字。语音合成技术是将文本信息通过语音的形式表达出来。通过语音识别与合成技术可以实现计算机的智能化、人性化，从而达到更好的人机交互效果。
　　科大讯飞的 API接口在实际的项目应用中具有良好的编程接口设计，可降低系统各部分的相互依赖和单元间的耦合度，提高内存单元的内聚性，从而提高系统的维护性和扩展性[2]。本文选用了科大讯飞API，作为系统语音识别与转换技术支持，通过网络直接访问科大迅飞平台，调用其 API 数据库，实现文字与语音之间的转化。
　　语音识别算法目前主要采用的有动态时间规整，隐马尔可夫模型，以及高斯混合模型三种。
　　2 三维虚拟实验员教学环境的整体架构
　　本系统整体框架如图1所示。结合本科生《多媒体技术与应用》课程，进行语义分析，再通过BM算法结合语料库进行对话匹配，匹配成功后，将匹配的文本转化为语音输出。
　　3 语音数据库
　　语音对话数据库主要针对《多媒体技术与应用》课程实验的情况进行数据库的设计及构造。在建立之前进行相关调研活动，整合归纳出对应数据模型。
　　4 语音系统
　　语音输入采用的是麦克风对声音信息进行采集，将原来的模拟信号数据转化成数字末信号，传入到计算机中。语音输入阶段会进行前期的预处理[7][8]。预处理后的语音数据经过特征参数提取，得到词条的模型。同时将语音信号生成的处理后的模板进行测试匹配，得到最终的文本文字，进行语音识别。语音识别的原理框图如图2所示。
　　5 实验结果
　　在某一特定条件下，输入语音长度为3s左右，噪音20dB以下，带宽10Mbps，标准普通话，音量40dB以上，本系统进行的语音识别和响应时间测试。测试结果如图3所示，横坐标表示实验组数，纵坐标为测试时间，共10组实验数据。
　　根据这10组数据可得，其平均语音识别时间为0.82899s，平均语音回应时间为1.59066s。由此可见，基本达到预期的设计效果。
　　6 结语
　　在三维虚拟环境中，构建具有情感的大学虚拟实验员外观形象，是高校信息化建设的有效结果。本文主要通过虚拟实验员较为逼真的表现性、真实的操作性、实时的反应性、一定的情感性，利用语音识别技术与学生进行交流沟通，取得了良好的教学效果。

高校三维虚拟实验员智能语音辅导系统的设计与实现

相关论文