如何进行Python音频的数据扩充
今天就跟大家聊聊有关如何进行Python 音频的数据扩充,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
10年的商都网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。全网整合营销推广的优势是能够根据用户设备显示端的尺寸不同,自动调整商都建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。创新互联从事“商都网站设计”,“商都网站推广”以来,每个客户项目都认真落实执行。
经典的深度学习网络AlexNet使用数据扩充(Data Augmentation)的方式扩大数据集,取得较好的分类效果。在深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在音频(Audio)领域中,如何进行数据扩充呢?
音频的数据扩充,主要有以下四种方式:
音频剪裁(Clip)
音频旋转(Roll)
音频调音(Tune)
音频加噪(Noise)
音频解析基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。
以下是Python的实现方式:
音频剪裁
import librosafrom scipy.io import wavfile y, sr = librosa.load("../data/love_illusion.mp3") # 读取音频print y.shape, sr wavfile.write("../data/love_illusion_20s.mp3", sr, y[20 * sr:40 * sr]) # 写入音频
音频旋转
import librosaimport numpy as npfrom scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频y = np.roll(y, sr*10)print y.shape, sr wavfile.write("../data/raw/xxx_roll.mp3", sr, y) # 写入音频
音频调音,注:cv库的resize函数含有插值功能。
import cv2import librosafrom scipy.io import wavfile y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频ly = len(y) y_tune = cv2.resize(y, (1, int(len(y) * 1.2))).squeeze() lc = len(y_tune) - ly y_tune = y_tune[int(lc / 2):int(lc / 2) + ly]print y.shape, sr wavfile.write("../data/raw/xxx_tune.mp3", sr, y_tune) # 写入音频
音频加噪,注:在添加随机噪声时,保留0值,否则刺耳难忍!
import librosafrom scipy.io import wavfileimport numpy as np y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频wn = np.random.randn(len(y)) y = np.where(y != 0.0, y + 0.02 * wn, 0.0) # 噪声不要添加到0上!print y.shape, sr wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y) # 写入音频
看完上述内容,你们对如何进行Python 音频的数据扩充有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注创新互联行业资讯频道,感谢大家的支持。
当前名称:如何进行Python音频的数据扩充
当前路径:http://myzitong.com/article/gogeoo.html