我想回家。
语音学概要
什么是听觉信号处理
- 语音识别:1-13.2
- 语音合成1-15.2
- 语音编码1-17.2
- 说话人识别1-19.3
语音的声学特性
1-40.5
- 人耳对于声波频率高低的感觉与实际频率近似成对数关系
- 声波是纵波
- 用声压或声强来表示声音的强度1-41.5;习惯上采用相对强度
语音时频域分析办法
时域分析
短时分析:
- 10-30ms内近似为平稳信号,2-5.1
- {方窗,哈明窗,哈宁窗}
- 短时能量;经常是特征的一维。2-9.1
- 短时平均幅度2-10.2
- 短时过零率2-10.2{平均过零率,门 限过零率}
- 短时自相关函数2-14.2
频域分析
- 滤波器组2-19.3
- 语谱图2-20.3
卷积同态信号处理方法2-24.3
乘积性组合信号或卷积性组合信号转化为加性信号。将非线性问题转化为线性问题来处理。
- 特征系统
- 反特征系统
- 复倒谱
- 倒谱
线性预测分析2-32.4
- 自相关法
- 协方差法
语音编码技术
语音数据编码的原因3-3.1
- 每秒样本数fs
- 每个样本通道数c
- 每个样本点的位数
为什么可以压缩?
- 存在冗余度3-5.1
- 人的听觉感知机理3-6.1
编码类型
- 波形编码3-7.1
- 参数编码3-8.1
- 混合编码~
语音质量等级3-9.1
- 广播质量
- 长途电话质量
- 通信质量
- 合成质量
PCM
DPCM 3-13.2
- 对相邻采样的差值编码
- 量化噪声被累积叠加,因此编码器中包含解码器
ADPCM 3-17.2
- 对采样值与预测值间的差值进行编码
- 需要每帧(段)传送一次。被称之边信息
LPC 3-21.3
- 完全基于语音信号的产生模型
- 解码后语音波形一般都会发生改变
CELP 3-25.3
- 是近10年来最成功的语音编码算法
语音编码的评测方法 3-34.4
- 编码速率{可变,不变}
- 顽健性 3-36.4
- 时延 3-37.5
- 算法时延
- 计算时延
- 复用时延
- 传输时延
- 计算复杂度和可扩展性 3-39.5
- 语音质量及其评价方法 3-40.5
语音识别技术
- 分类4-4.1
动态时间归正方法DTW
- 特定人小词表孤立词系统
- 使用欧氏距离作为相似度
- 矢量序列对准(4-8.1)后的距离求和作为矢量序列距离
- 用于非特定人识别的聚类方法(4-17.2)