大型旋转机械声信号分析处理与故障诊断模块SoundAgent
大型旋转机械声信号分析处理与故障诊断模块SoundAgent,应用于各类关键机械部件(轴承、齿轮、转子等)的信号分析、故障探测、趋势劣化评估等,采用全Python语言,以B/S模式,通过前端与后端集成开发,采用开放的、模块化、多层架构的设计思想实现信号分析处理、趋势预示与故障诊断模块,能应用在不同场合的设备健康监测与故障诊断,满足不同类型机械设备与关键部件(齿轮箱、轴承、转子等)的健康预诊与故障诊断需求。信号趋势分析算法模块可灵活地集成到各种设备故障诊断与健康预诊系统,提供完整的算法类调用接口,基于该工具箱的各种信号处理模型,可迅速建立起一套完整的基于各种关键机械部件信号分析处理与故障诊断模块的设备故障诊断与健康预诊系统。声信号分析处理与故障诊断模块可灵活地集成到各种设备故障诊断与健康预诊系统,提供完整的算法类调用接口,基于该工具箱的各种信号处理模型,可迅速建立起一套完整的基于声信号处理的设备故障诊断与健康预诊系统,也可支持各类系统研制与学术研究。声信号分析处理与故障诊断模块主要包括的算法:声学分析(声压分析、声强分析、声功率分析)、瀑布声谱图、梅尔倒谱系数、梅尔滤波器、Bark倒谱系数、线性预测倒谱系数、Gammatone滤波器倒谱系数、线性频率倒谱系数、线性预测系数、线性预测倒谱系数、相位谱根倒谱系数、幂归一化倒谱系数、归一化伽马倒谱系数等19946089034。
信号处理工具箱算法软件包SPAgent主界面:
从信号处理工具箱算法软件包SPAgent主控界面可以看到,该工具箱实现的功能主要为各类信号处理算法的演示与分析,图形化的操作界面,操作人员可以直接通过左侧下拉菜单选择各类算法对信号进行处理分析,即使是技术水平不高的工人也可应用此软件调用各类信号处理算法。
SoundAgent算法模型如下:
14.声纹信号处理算法
14.1 瀑布声谱图(WS)
1.算法特点与功能描述:
瀑布声谱图(Waterfall Spectrogram,WS)是一种用于可视化音频信号的频谱内容和时域特征的图形表示方法。它结合了传统的声谱图和瀑布图的特点,以一种连续的方式展示音频信号的频谱随时间的变化。瀑布声谱图通过在时间轴上不断平移声谱图,从而形成一个连续的图像序列。
2.算法应用:
瀑布声谱图可以提供关于频谱随时间演化的动态信息,使得观察者能够更清晰地观察到频谱的变化趋势、频率成分的出现和消失等。在许多领域有广泛应用,特别是在声音处理、声学研究、通信系统分析等领域。它可以帮助人们更好地理解音频信号的频谱特性,发现其中的模式和结构,并用于识别信号中的特定频率成分或事件。
14.2梅尔倒谱系数(MFCC)
1.算法特点与功能描述:
梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。MFCC提取过程包括预处理、快速傅里叶变换、Mei滤波器组、对数运算、离散余弦变换、动态特征提取等步骤。
2.算法应用:
MFCC特征是一种在自动语音识别和说话人识别中广泛使用的特征,由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁棒性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
14.3梅尔滤波器
1.算法特点与功能描述:
梅尔滤波器组(Mel Filter Bank)是一种在语音信号处理和音频分析中广泛使用的工具,是一组滤波器,每个滤波器代表了一个梅尔频率带。这些滤波器的中心频率通常均匀分布在梅尔频率轴上,以模拟人类听觉系统对声音的感知。用于模拟人类听觉系统对声音的感知特性。它的主要目的是将连续的声音信号分成一组频带,以便更好地捕捉人类听觉的特性,同时减少数据的维度。
2.算法应用:
梅尔滤波器常用于音频特征提取,尤其在语音识别中。通过将音频信号转化为梅尔频谱,可以减少数据的维度,并提取更有信息量的特征用于模型训练。在音频处理任务中,如音频分割、情感分析、音乐信息检索等,梅尔滤波器也用于提取音频的特征,以帮助模型更好地理解音频数据。
14.4Gammatone滤波器倒谱系数(GFCC)
1.算法特点与功能描述:
Gammatone滤波器倒谱系数(Gammatone Frequency Cepstral Coefficients, GFCC)算法是一种用于音频信号分析的方法,主要包括两个主要步骤:Gammatone滤波器组的设计和倒谱系数的计算。GammaTone 滤波器是一组用来模拟耳蜗频率分解特点的滤波器模型,可以用于音频信号的分解,便于后续进行特征提取。
2.算法应用:
Gammatone滤波器倒谱系数算法通过模拟人耳的感知机制,提取了音频信号中的重要特征,为音频信号处理领域的各种应用提供了有力的工具,广泛应用于语音识别、说话人识别、音频信号处理等领域。倒谱系数提取了音频信号中的关键特征,包括说话人的声音特征、语音内容等,为后续的模式识别任务提供了有用的信息。
14.5自适应小波包去噪(AWPD)
1.算法特点与功能描述:
自适应小波包去噪(Adaptive wavelet packet denoising,AWPD)它基于小波变换的原理,通过自适应地选择合适的小波基和分解层次,对信号进行分解和重构,从而达到去噪的目的。与小波变换不同的是,小波包变换将信号分解为更多层次的频带,从而可以更有针对性地分析信号的不同频率成分。小波包变换可以理解为进一步细分小波变换的结果,将信号分解为更加局部化的频率子带。
2.算法应用:
在声信号处理中,自适应小波包去噪广泛应用于语音信号、音乐信号以及工业设备的故障诊断等领域。通过去除噪声,可以提高声信号的质量和可靠性,为后续的信号分析和应用提供更好的基础。
14.6Bark倒谱系数(BFCC)
1.算法特点与功能描述:
Bark是一种心理声学的测量单位,用于模拟人耳对声音频率的感知。Bark频率刻度将整个听觉频率范围划分为若干个频带,每个频带称为一个Bark。Bark频率刻度的设计基于人耳在感知不同频率时的响应,更符合人耳对声音高低的主观感受。Bark倒谱系数是将Bark频率刻度和倒谱系数结合起来的一种特征表示。它通过在Bark刻度上对信号进行倒谱分析,提供了更符合人耳感知特性的声音特征。
2.算法应用:
Bark倒谱系数在语音和音频处理领域有广泛的应用,包括:提取语音信号的特征,以帮助区分不同语音,在音频编解码中用于提取语音的重要特征,以便更有效地压缩和重建音频信号,提供更接近人类听觉感知的频域表示,用于音频信号分析和处理。Bark倒谱系数结合了Bark频率刻度和倒谱分析的优势,能够更好地捕捉人类听觉系统对声音的感知特性,因此在许多语音和音频处理应用中表现出色。
14.7.1 声压分析(SPA)
1.算法特点与功能描述:
声压(Sound Pressure)是由于声波的存在而引起的压力增值。单位为Pa。声波在空气中传播时形成压缩和稀疏交替变化,所以压力增值是正负交替的。但通常讲的声压是取均方根值,叫有效声压,故实际上总是正值。
2.算法应用:
声压是定量描述声波的最基本的物理量,它是由于声扰动产生的逾量压强,是空间位置和时间的函数。由于声压的测量比较易于实现,而且通过声压的测量也可以间接求得质点振速等其他声学参量,因此,声压已成为人们最为普遍采用的定量描述声披性质的物理量。
14.7.2 声强分析(SIA)
1.算法特点与功能描述:
声强(Sound Intensity)是指单位时间内,声波通过垂直于传播方向单位面积的声能量。单位为 W / s2。对于球面波和平面波,声压与声强的关系是: I= P2 / ρc,式中:ρ-空气密度,如以标准大气压与20℃的空气密度和声速代入,得到ρ·c =408 国际单位值,也叫瑞利。
2.算法应用:
使用声强算法可以准确测量噪音的强度和分布,而不仅仅是简单的声压测量。这对于评估噪音污染、制定噪音控制措施很有帮助,应用于工业交通、环境等领域。通过声强分布的测量和分析,可以构建声源的成像图,用于定位和识别噪声源。
这在机械故障诊断、生物声学研究等领域有重要应用。
14.7.3 声功率分析(SWA)
1.算法特点与功能描述:
声功率(Sound Power)声功率是指单位时间内,声波通过垂直于传播方向某指定面积的声能量。在噪声监测中,声功率是指声源总声功率。单位为W。
2.算法应用:
通过测量声源的声功率,可以评估噪声对环境的影响,制定有效的噪声控制措施。,这在工业、交通、建筑等领域都有广泛应用;通过测量声源的功率分布,可以定位和识别噪声源的位置,这在工业故障诊断、音频监测等领域有重要应用。
14.8线性频率倒谱系数(LFCC)
1.算法特点与功能描述:
线性频率倒谱系数(Linear Frequency Cepstral Coefficients,LFCC)是一种在语音信号处理领域广泛使用的特征提取方法。LFCC是在倒谱系数基础上引入了线性频率尺度的变换。LFCC的计算步骤通常包括对语音信号进行傅里叶变换,然后在频域上计算其对数谱,最后进行倒谱变换。LFCC考虑了声音信号的线性特性,提供了更好的频谱表示。
2.算法应用:
LFCC常用于语音识别系统中,将语音信号转换为具有较好区分性的特征。这有助于提高语音识别系统的准确性和鲁棒性。LFCC也可用于说话人识别任务,通过提取说话人的声纹特征,实现对说话人的身份进行识别。LFCC在音频处理领域中的应用不仅限于语音信号,还可以用于音频信号的特征提取,例如音乐分类、环境声音识别等。总体而言,LFCC作为一种有效的特征提取方法,为语音信号处理领域提供了重要的工具,广泛应用于各种语音相关的应用场景。
14.9线性预测系数(LPC)
1.算法特点与功能描述:
线性预测技术很早(1967年)就已经被应用与语音处理领域,基本概念是:一个语音的采样值可以通过过去若干语音采样值的线性组合来逼近(最小均方误差),能够决定唯一的一组预测系数,而这个预测系数(Linear Predictive Coefficient,LPC),可以当作是该语音的一个特征。
2.算法应用:
线性预测分析的基本原理是把信号用一个模型来表示,即将信号看作某一个模型(系统)的输出,这样就可以用该模型的参数来描述信号。线性预测最重要的优势在于其可以较为精确的估计语音的参数,而这些极少的参数可以正确的表现语音信号的时域和频域特性。
14.10线性预测倒谱系数(LPCC)
1.算法特点与功能描述:
线性预测倒谱系数(LPCC)是由LPC计算的频谱包络得到的倒谱系数。LPCC是LPC对数幅度谱的傅里叶变换的系数。倒谱分析是语音处理领域中常用的一种分析方法,因为它能够以有限的特征来完美地表征语音波形和特征。LPCC是LPC系数在倒谱域的表示,计算量小易于实现,对元音的描述能力较好,对辅音的描述能力较差,抗噪性能差。
2.算法应用:
LPCC对噪声的脆弱性较低。与LPC特性相比,LPCC特性的错误率更低。LPCC估计对量化噪声非常敏感。高频语音信号的倒谱分析给出了低频域的小源滤波器可分性。低阶倒谱系数对谱斜率敏感,而高阶倒谱系数对噪声敏感。
14.11基于幅度的谱根倒谱系数(MSRCC)
1.算法特点与功能描述:
基于幅度的谱根倒谱系数(Magnitude-based Spectral Root Cepstral Coefficients,MSRCC)是一种在语音和音频信号处理中使用的特征提取技术。它结合了幅度谱和谱根倒谱系数的概念,以捕捉信号频谱内容的重要特征。计算步骤:a. 使用DFT计算信号片段的幅度谱,b. 对幅度谱取对数,c. 应用傅里叶逆变换以得到倒谱,d. 对倒谱系数取平方根以得到谱根倒谱系数,e. 如果需要,进行进一步的处理,如加窗或均值归一化,f. 从谱根倒谱系数中选择一部分构成最终的MSRCC特征向量。
2.算法应用:
MSRCC特征已成功应用于各种语音和音频处理任务,包括:能够捕捉到个人声音的独特特征,因此对说话人识别和验证系统非常有用;可用作自动语音识别系统的输入,有助于表示语音信号的频谱内容,提高语音识别的准确性;已用于分析语音信号中的情感内容,实现能够基于声音频谱特征检测和分类情感的系统。
14.12 归一化伽马倒谱系数(NGCC)
1.算法特点与功能描述:
归一化伽马倒谱系数(Normalized Gammachirp Cepstral Coefficients,NGCC)是一种声音特征提取算法,用于语音识别和语音信号处理领域。它是对传统的倒谱系数算法的改进和扩展。NGCC算法结合了伽马音调模型和倒谱分析技术,能够更好地捕捉声音信号的时频特性。其主要思想是通过对声音信号进行一系列预处理步骤,如预加重、短时傅里叶变换和滤波器组合,获取信号的频率和幅度信息。然后,使用伽马音调模型对信号进行建模,以更好地适应人耳对声音的感知。
2.算法应用:
NGCC算法的应用情况主要集中在语音识别和语音信号处理领域。倒谱系数是一种有效的声音特征表示方法,NGCC算法通过引入伽马音调模型和相关的信号处理步骤,提供了更加准确和鲁棒的特征表示。这使得NGCC在语音识别系统中具有更好的性能,可以提高语音识别的准确度和鲁棒性,特别是在噪声环境下。
此外,NGCC算法还可以应用于语音合成、语音增强和语音分析等领域,以提取和处理声音信号中的相关特征。
14.13 幂归一化倒谱系数(PNCC)
1.算法特点与功能描述:
幂归一化倒谱系数(Power-Normalized Cepstral Coefficients, PNCC) 是一种广泛应用于语音信号处理的特征提取算法,它是基于传统倒谱系数的一种改进版本。首先对原始语音信号进行短时傅里叶变换,得到频谱幅度信息;对频谱幅度进行幂归一化处理,即将每个频带的幅度值除以该频带的平均幅度;对归一化后的频谱进行对数处理,得到倒谱;最后,对倒谱进行离散余弦变换,提取前若干个倒谱系数作为PNCC特征向量。
2.算法应用:
PNCC具有较强的抗噪性,在SNR较低的情况下表现优异;能够捕捉语音的短时频谱特征;计算量相对较小,适用于实时应用。广泛应用于语音识别、说话人识别、语音活性检测等领域,能够显著提高系统的性能。其优异的抗噪性使其在恶劣环境下的语音应用中表现出色。此外,PNCC 也可用于音乐信号处理、声学事件检测等其他音频分析任务。
14.14相位谱根倒谱系数(PSRCC)
1.算法特点与功能描述:
相位谱根倒谱系数(Phase-based Spectral Root Cepstral Coefficients, PSRCC) 是一种音频信号处理算法,主要用于语音识别和语音信号分析。PSRCC是一种从语音信号的相位谱根中提取特征的算法,通过提取相位信息和倒谱特征,它能够对语音信号进行建模和表示,广泛应用于语音识别和语音信号分析领域。
2.算法应用:
PSRCC的应用主要集中在语音识别和语音信号分析领域。它们可以被用作语音特征提取的一部分,并输入到语音识别系统中。PSRCC具有一定的鲁棒性,对于噪声和变化较大的语音信号具有较好的建模能力。此外,PSRCC还可以用于语音信号的音质分析、语音合成和语音转换等任务
14.15感知线性预测系数(PLPC)
1.算法特点与功能描述:
感知线性预测系数(Perceptual Linear Prediction Coefficients, PLPC) 是一种基于听觉模型的特征参数。该特征参数是全极点模型预测多项式的一组系数,等效于一种LPC线性预测系数特征。它们的不同之处是PLP 技术将人耳听觉试验获得的一些结论, 通过近似计算的方法进行了工程化处理, 应用到频谱分析中, 将输入的语音信号经听觉模型处理后所得到的信号替代传统的LPC 分析所用的时域信号。经过这样处理后的语音频谱考虑到了人耳的听觉特点, 因而有利于抗噪语音特征提取。
2.算法应用:
PLPC具有较强的抗噪性,能够捕捉语音的短时频谱特征,有利于抗噪语音特征提取,广泛应用于语音识别、说话人识别、语音活性检测等领域,能够显著提高系统的性能。其优异的抗噪性使其在恶劣环境下的语音应用中表现出色。
14.16相对频谱变换-感知线性预测系数(RPLPC)
1.算法特点与功能描述:
相对频谱变换-感知线性预测系数(Rasta Linear Prediction Coefficients, RPLPC)
是一种在语音处理领域广泛应用的信号处理技术,主要用于语音特征提取。是一种经过修正的线性预测倒谱系数。分解来看,PLP是在LPC线性预测上加了一个perceptual,就是根据人的听觉感知特点修改语音功率谱,做了等响度预加重和立方根压缩,RASTA总的来说是使稳态频谱因子更鲁棒的一种方法。
2.算法应用:
RPLPC特征已成功应用于各种语音和音频处理任务,能够捕捉到个人声音的独特特征,可用作自动语音识别系统的输入,有助于表示语音信号的频谱内容,提高语音识别的准确性,已用于分析语音信号中的情感内容。抗噪性强,能够捕捉语音的短时频谱特征,有利于抗噪语音特征提取。
14.17 反向梅尔倒谱系数(IMFCC)
1.算法特点与功能描述:
反向梅尔倒谱系数(Inverse Mel-scale Frequency Cepstral Coefficients,简称IMFCC)是梅尔倒谱系数(MFCC)的一种变体。MFCC基于人耳的听觉机理,通过一系列处理提取出能反映语音本质特征的信息。它利用Mel标度来模拟人耳对不同频率声波的敏感度,通过预加重、分帧、加窗、快速傅里叶变换(FFT)、Mel滤波器组、对数运算、离散余弦变换(DCT)等步骤提取特征,这些特征在语音识别和话者识别领域具有广泛的应用。
2.算法应用:
反向梅尔倒谱系数作为MFCC的一种变体,在某些特定的应用场景下有其独特的优势和用途,IMFCC不仅在传统的语音识别和话者识别系统中有应用,还扩展到了非声学信号的处理,例如在医疗领域的心电图(ECG)和脑电图(EEG)分类中,以及工业领域的设备故障检测等。
14.18 谱熵(SE)
1.算法特点与功能描述:
Spectral Entropy:谱熵,根据熵的特性可以知道,分布越均匀,熵越大,能量熵反应了每一帧信号的均匀程度,如说话人频谱由于共振峰存在显得不均匀,而白噪声的频谱就更加均匀,借此进行VAD便是应用之一。
2.算法应用:
谱熵算法在多个领域有着广泛的应用,包括但不限于信号处理、机器学习、生物医学工程等。在信号处理领域,谱熵可以用来区分不同类型的信号,如窄带信号和宽带信号。例如,它可以用于检测EEG信号中的癫痫发作活动,因为癫痫发作时EEG信号的能量通常集中在频域的某个特定区域,导致谱熵较低,而背景信号的能量则在频域中随机分布,导致谱熵较高
14.19 谱平坦度(SF)
1.算法特点与功能描述:
Spectral Flatness:谱平坦度,是数字信号处理中用于描述音频频谱特性的一个度量,它通过比较信号的功率谱的几何平均值与算术平均值来量化信号与纯音的相似程度。在音频特征提取中,谱平坦度是一个重要的特征,它可以描述信号音色的明朗度。例如,明亮的声音能量集中在高频部分,其频谱质心的值就越大,而谱平坦度则可以用来量化信号与噪声之间相似度的参数。信号的平坦度越大,那么信号是噪声的可能性越大。
2.算法应用:
在实际应用中,谱平坦度可以用于多种场景,例如:1)音频处理:在音乐和语音处理中,谱平坦度可以用来识别和区分不同类型的声音,如区分音乐中的不同乐器声音或语音中的不同说话者。2)噪声抑制:在降噪算法中,谱平坦度可以帮助识别背景噪声和有用信号,从而提高降噪效果。3)心理声学:在研究人类对声音的感知时,谱平坦度可以用来分析声音的主观属性,如响度和尖锐度。4)生物医学信号处理:在脑电图(EEG)分析中,谱平坦度可以作为特征之一,帮助诊断和研究大脑活动。
14.20 谱延展度(SSP)
1.算法特点与功能描述:
Spectral Spread:它通常指的是信号或系统的频率响应特性,指一个信号的频谱分布宽度,它与信号的时间局部化性质有关。根据傅里叶变换的不确定性原理,一个信号如果在时域内越局部化(即持续时间越短),其频谱就会越宽,反之亦然,这在音频信号处理中尤其重要。
2.算法应用:
在自动语音识别系统中,谱延展度可以用来区分不同的发音和语言特征。它有助于捕捉说话者的声音特征,从而改善识别的准确性。在声源定位和分离中,谱延展度可以作为区分不同声源的一个特征,因为不同的声源可能有不同的频谱分布。
在音频分类任务中,谱延展度可以作为区分不同音频类别(如音乐、语音、噪声等)的特征之一。在情感语音分析中,谱延展度可以帮助识别语音中的情感状态,因为不同的情感状态可能会影响声音的频谱分布。谱延展度可以与其他音频特征结合使用,以提供更丰富的音频信号表示,这对于深度学习模型的训练尤为重要。