搜索

x

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

语音信号序列的Volterra预测模型

张玉梅 胡小俊 吴晓军 白树林 路纲

语音信号序列的Volterra预测模型

张玉梅, 胡小俊, 吴晓军, 白树林, 路纲
PDF
导出引用
导出核心图
  • 对给定的英语音素、单词和语句进行了采集并完成预处理. 分别应用互信息法和Cao 氏法确定了实际采集的语音信号序列的延迟时间和嵌入维数, 以完成语音序列的相空间重构. 通过计算实际采集的语音信号序列的最大Lyapunov指数, 完成了语音信号的混沌特性识别, 判定其具有混沌特性. 引入Volterra级数, 提出了一种具有显式结构的语音信号非线性预测模型. 为克服最小均方误差算法在Volterra模型系数更新时固有的缺点, 在最小二乘法基础上, 应用基于后验误差假设的可变收敛因子技术, 构建了一种基于Davidon-Fletcher-Powell算法的二阶Volterra 模型(DFPSOVF), 并将其应用于具有混沌特性的语音信号序列预测. 仿真结果表明: DFPSOVF非线性预测模型对于单帧和多帧语音信号均具有更好的预测精度, 优于线性预测模型, 并且能够很好地反映语音序列变化的趋势和规律, 完全可以满足语音预测的要求; 可以根据语音信号序列的嵌入维数选取预测模型的记忆长度. 所提出模型可以为语音信号重构和压缩编码开辟一条新途径, 以改善语音信号处理方法的复杂度和处理效果.
    • 基金项目: 国家自然科学基金 (批准号: 11502133, 11172342, 11372167, 61202153)、陕西省重点科技创新团队项目(批准号: 2014KTC-18)、西安市科技计划(批准号: CXY1437(1))和榆林市科技计划 (批准号: 2014cxy-09, sf13-43, 2012 cxy3-6) 资助的课题.
    [1]

    Maragos P 2013 Appl. Soft Comput. 13 3314

    [2]

    Wu X J, Yang Z Z 2013 Appl. Soft Comput. 13 3314

    [3]

    Max A L 2011 Advances in Nonlinear Speech Processing 7015 9

    [4]

    Cheng X F, Zhang Z 2013 Acta Phys. Sin. 62 168701 (in Chinese) [成谢锋, 张正 2013 物理学报 62 168701]

    [5]

    Chen D Y, Liu Y, Ma X Y 2012 Acta Phys. Sin. 61 100501 (in Chinese) [陈帝伊, 柳烨, 马孝义 2012 物理学报 61 100501]

    [6]

    Iasonas K, Petros M 2005 IEEE Trans. Speech Audio Process. 13 1098

    [7]

    Sun J F, Zheng N H, Wang X L 2007 Singal Process. 87 2431

    [8]

    Maciej O 2005 Chin. Phys. 14 2181

    [9]

    Xiao X C, Li H C, Zhang J S 2005 Chin. Phys. 14 2181

    [10]

    Zhang J S, Li H C, Xiao X C 2005 Chin. Phys. 14 49

    [11]

    Thyssen J, Nielsen H, Hansen S D 1994 ICASSP 185

    [12]

    Sigrist Z, Grivel E, Alcoverro B 2012 Signal Process. 92 1010

    [13]

    Mathews V J 1991 IEEE Signal Process. Mag. 8 10

    [14]

    Wei R X, Han C Z, Zhang Z L 2005 Acta Electron. Sin. 33 656 (in Chinese) [魏瑞轩, 韩崇昭, 张宗麟 2005电子学报 33 656]

    [15]

    Guerin A, Faucon G, Le Bouquin-Jeannes R 2003 IEEE Trans. Speech Audio Proc. 11 672

    [16]

    Zhang Y M, Wu X J, Bai S L 2013 Acta Phys. Sin. 62 190509 (in Chinese) [张玉梅, 吴晓军, 白树林 2013 物理学报 62 190509]

    [17]

    Henry D, Abarbanel N M, Rabinovich M I, Evren T 2001 Phys. Lett. A 281 368

    [18]

    Cao L Y 1997 Physica D 110 43

    [19]

    Rosenstein M T, Collins J J, de Iuca C J 1993 Physica D 65 117

    [20]

    de Campos M L R, Antoniou A 1997 IEEE Trans. Circ. Syst. 44 924

  • [1]

    Maragos P 2013 Appl. Soft Comput. 13 3314

    [2]

    Wu X J, Yang Z Z 2013 Appl. Soft Comput. 13 3314

    [3]

    Max A L 2011 Advances in Nonlinear Speech Processing 7015 9

    [4]

    Cheng X F, Zhang Z 2013 Acta Phys. Sin. 62 168701 (in Chinese) [成谢锋, 张正 2013 物理学报 62 168701]

    [5]

    Chen D Y, Liu Y, Ma X Y 2012 Acta Phys. Sin. 61 100501 (in Chinese) [陈帝伊, 柳烨, 马孝义 2012 物理学报 61 100501]

    [6]

    Iasonas K, Petros M 2005 IEEE Trans. Speech Audio Process. 13 1098

    [7]

    Sun J F, Zheng N H, Wang X L 2007 Singal Process. 87 2431

    [8]

    Maciej O 2005 Chin. Phys. 14 2181

    [9]

    Xiao X C, Li H C, Zhang J S 2005 Chin. Phys. 14 2181

    [10]

    Zhang J S, Li H C, Xiao X C 2005 Chin. Phys. 14 49

    [11]

    Thyssen J, Nielsen H, Hansen S D 1994 ICASSP 185

    [12]

    Sigrist Z, Grivel E, Alcoverro B 2012 Signal Process. 92 1010

    [13]

    Mathews V J 1991 IEEE Signal Process. Mag. 8 10

    [14]

    Wei R X, Han C Z, Zhang Z L 2005 Acta Electron. Sin. 33 656 (in Chinese) [魏瑞轩, 韩崇昭, 张宗麟 2005电子学报 33 656]

    [15]

    Guerin A, Faucon G, Le Bouquin-Jeannes R 2003 IEEE Trans. Speech Audio Proc. 11 672

    [16]

    Zhang Y M, Wu X J, Bai S L 2013 Acta Phys. Sin. 62 190509 (in Chinese) [张玉梅, 吴晓军, 白树林 2013 物理学报 62 190509]

    [17]

    Henry D, Abarbanel N M, Rabinovich M I, Evren T 2001 Phys. Lett. A 281 368

    [18]

    Cao L Y 1997 Physica D 110 43

    [19]

    Rosenstein M T, Collins J J, de Iuca C J 1993 Physica D 65 117

    [20]

    de Campos M L R, Antoniou A 1997 IEEE Trans. Circ. Syst. 44 924

  • 引用本文:
    Citation:
计量
  • 文章访问数:  1221
  • PDF下载量:  193
  • 被引次数: 0
出版历程
  • 收稿日期:  2014-11-12
  • 修回日期:  2015-06-02
  • 刊出日期:  2015-10-05

语音信号序列的Volterra预测模型

  • 1. 陕西师范大学, 现代教学技术教育部重点实验室, 西安 710062;
  • 2. 陕西师范大学计算机科学学院, 西安 710062;
  • 3. 西北工业大学自动化学院, 西安 710072;
  • 4. 西北工业大学电子信息学院, 西安 710072
    基金项目: 

    国家自然科学基金 (批准号: 11502133, 11172342, 11372167, 61202153)、陕西省重点科技创新团队项目(批准号: 2014KTC-18)、西安市科技计划(批准号: CXY1437(1))和榆林市科技计划 (批准号: 2014cxy-09, sf13-43, 2012 cxy3-6) 资助的课题.

摘要: 对给定的英语音素、单词和语句进行了采集并完成预处理. 分别应用互信息法和Cao 氏法确定了实际采集的语音信号序列的延迟时间和嵌入维数, 以完成语音序列的相空间重构. 通过计算实际采集的语音信号序列的最大Lyapunov指数, 完成了语音信号的混沌特性识别, 判定其具有混沌特性. 引入Volterra级数, 提出了一种具有显式结构的语音信号非线性预测模型. 为克服最小均方误差算法在Volterra模型系数更新时固有的缺点, 在最小二乘法基础上, 应用基于后验误差假设的可变收敛因子技术, 构建了一种基于Davidon-Fletcher-Powell算法的二阶Volterra 模型(DFPSOVF), 并将其应用于具有混沌特性的语音信号序列预测. 仿真结果表明: DFPSOVF非线性预测模型对于单帧和多帧语音信号均具有更好的预测精度, 优于线性预测模型, 并且能够很好地反映语音序列变化的趋势和规律, 完全可以满足语音预测的要求; 可以根据语音信号序列的嵌入维数选取预测模型的记忆长度. 所提出模型可以为语音信号重构和压缩编码开辟一条新途径, 以改善语音信号处理方法的复杂度和处理效果.

English Abstract

参考文献 (20)

目录

    /

    返回文章
    返回