研究音频编解码要看什么书

简介: 前言。。。。。。最近总是有人问研究音频编解码要看什么书其实这是一个很难回答的问题,原因有很多。首先,做工程首先一个问题就是和课本学习不同,不是看书能解决的。其次,音频编解码技术在国内研究的人很少包括总体的音频技术国内相对国外都研究的不多。

前言。。。。。。

最近总是有人问研究音频编解码要看什么书

其实这是一个很难回答的问题,原因有很多。

首先,做工程首先一个问题就是和课本学习不同,不是看书能解决的。

其次,音频编解码技术在国内研究的人很少包括总体的音频技术国内相对国外都研究的不多。(从中国的潜艇噪声技术一直解决不好就能看出一二)。

第三,音频编解码技术是一种应用,而一般的书籍都是理论基础。

只看理论书籍和应用脱离太多,没有实用会忘记。

我当初看书也是从工程入手,就是在实际工作中和个人兴趣中看了大量的标准,然后对不懂的地方找论文,再找书籍补知识。可以说这是典型的逆向学习。

通常研究生是课本->看论文->做工程。

 

但是我还是总结 一下关于如何看书的问题,希望对入门者有帮助

概述。。。。。

首先,音频编解码技术是一种比较复杂的应用,而普通的书籍是一种理论书籍尤其是在中国。一会解释这句话。

其次,音频编解码技术和一般的音频技术不同,比如AEC,HRTF,后者分别是语音和音频的应用技术,应该说是一种具体的应用技术,相对来说查资料还是容易有的放矢。

分解。。。。。

其实音频编解码技术也是一种具体的应用技术,但是可能系统相对复杂,目的相对基础。它是信源编解码技术的一个分支,目的就是压缩数据。

那么音频编解码技术包括哪些方面呢?

既然他是一种信源编解码器技术(Source Coding Technology)那么信源编解码技术的书籍都可以看,做理论基础学习。

另外其实我把音频编解码技术分为5大技术,EQTPM,E,熵编码,Q,量化编码,T,变换编码,P,预测编码,M,音频建模(感知建模,BCC建模,正弦建模等)

这里包括4类书籍:

1.语音编解码书籍,因为国内讲宽带音频编解码的书籍很少,所以可以看些语音编解码的书籍,里面也有讲EQTP技术。

例如:《语音处理技术》,《语音编码》,《低码率音频编码》,《数字语音编码原理》,《变速率语音编码》《低速率语音编码》《数字语音编码》《数据压缩》

《JPEG2000 图像压缩基础》:我认为这本书讲的还是不错的,翻译的也不错,很多基本原理讲的比较透彻。

2.理论基础书籍,《信息论与编码》,《信号与系统》,高数这类我就不但列出来了,但是也要常番。

3.国外的宽音频编码书籍,例如我认为很经典的ANDREAS SPANIAS的《Audio Signal Processing and Coding 》。以及他的63页的论文,《Perceptual Coding of Digital Audio》。

其他可看的书籍包括:

MP3之父——K. Brandenburg的《Applications of Digital Signal Processing to Audio and Acoustics》

《A Digital Signal Processing Primer, with Applications to Digital Audio and Computer Music》

《Auditory Perception and the MPEG Audio Standard》

《Foundation and Evolution of Standardized Coders (Wiley,2003)(ISBN 0471373125)(578s)》

汉堡联邦国防军大学Udo Zolzer教授的《Digital Audio Signal Processing》

《High-Fidelity Multichannel Audio Coding》

《Speech Coding Algorithms》

我强烈推荐把SPANIAS的书读一下。至少把SPANIAS的那个论文仔细看一下。你会对音频编码的理解有很深的帮助。但是里面会将很多关于耳朵的生理词语,要拿着字典慢慢翻。这个论文我是烦烂了的。使我受益匪浅。

后面的书籍我还没有系统看过,但都有PDF版本,我也是偶尔翻一下。因为这些经典书籍你不花大时间理解,会造成假象是乍看起来都讲得类似,但实际理解起来发现是对不同细节的阐述。

4.其他类书籍

专门书籍,

如《自适应信号处理》,因为音频编码也好其他音频技术也好,自适应技术是经常使用的。例如无损编码的Wavpack,MPEG4 ALS,都使用了自适应技术。

滤波器设计的相关书籍。

《多抽样率数字信号处理理论及其应用》:讲解Transform技术。

HE-AAC和ATRAC3,使用的QMF,

MP3 使用的PQF

AAC,MP3使用的MDCT

AC3使用的TDAC(MDCT)

WMA和G。722.1的(MLT)

都是为什么,选择这些变换工具。有什么区别。

如果你能看看Vaidyananthan PP的书,会更有帮助。

最后。。。。。。。。。

除了这些书籍,建议大家多看看论文。

很多国外的大学都有专门的论文和PPT教学。

我把论文分3类。

1.会议论文(有的讲的很有点概况,有的有些对原理公式还是讲的比较清楚,还有一些强调系统性和介绍的)。

例如:伦敦学院的《A Survey of Packet Loss Recovery Techniques for Streaming Audio》 对PLC技术做了系统归纳

L Daudet的《A review on techniques for the extraction of transients in musical signals》对瞬态信号提取技术做了归纳。

2.毕业论文。往往讲的很详细。

这里我举2个例子,文章太多我就截屏解释吧。

3.经典PPT

例如很多大学和机构开放课程会有一些经典PPT。

例如:德国Fraunhofer的主页就有很多奖MPEG系列音频编码技术的PPT。非常好,非常推荐。

除了论文,我们还可以看一些一些常用的网址

我就给一个好了,超经典的

斯坦福大学

Julius Orion Smith III 教授的主页

https://ccrma.stanford.edu/~jos/

不说了,自己看吧,引用里面的介绍--(1GB of on-line publications, sound examples, and software )

 

结语。。。。。。。。

 馒头要一口一口吃,耐心些,开始吧

目录
相关文章
|
11月前
|
机器学习/深度学习 人工智能 达摩院
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(1)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
132 0
|
11月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(3)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
140 0
|
11月前
|
人工智能 达摩院 算法
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架(2)
AAAI 2023 Oral | 图像质量堪忧干扰视觉识别,达摩院提出更鲁棒框架
144 0
|
11月前
|
人工智能 Shell 语音技术
极速进化,光速转录,C++版本人工智能实时语音转文字(字幕/语音识别)Whisper.cpp实践
业界良心OpenAI开源的[Whisper模型](https://v3u.cn/a_id_272)是开源语音转文字领域的执牛耳者,白璧微瑕之处在于无法通过苹果M芯片优化转录效率,Whisper.cpp 则是 Whisper 模型的 C/C++ 移植版本,它具有无依赖项、内存使用量低等特点,重要的是增加了 Core ML 支持,完美适配苹果M系列芯片。 Whisper.cpp的张量运算符针对苹果M芯片的 CPU 进行了大量优化,根据计算大小,使用 Arm Neon SIMD instrisics 或 CBLAS Accelerate 框架例程,后者对于更大的尺寸特别有效,因为 Accele
|
机器学习/深度学习 传感器 编解码
毫米波雷达在多模态视觉任务上的近期工作及简析(上)
在近些年,2D检测任务在自动驾驶的热度递减,取而代之的是3D任务,毕竟现在的实际场景一直多是基于3D场景。但是在3D检测或者分割等任务中,雷达赋予了一个不一样的角色,在之前FOV视角中,毫米波点云大多为了与FOV特征融合,都是通过投影这一种方法,而放到3D场景中,分为两个流派:一个是点云流派:由于lidar和radar具有天然的相似性(当然是处理后的点云),自然就有lidar的相关角色赋予毫米波雷达,相应的,毫米波的角色从FOV到了BEV,它的下游任务,也从辅助为主到BEV下的分割、深度估计、生成密集点云等。
毫米波雷达在多模态视觉任务上的近期工作及简析(上)
|
传感器 数据采集 机器学习/深度学习
毫米波雷达在多模态视觉任务上的近期工作及简析(下)
在近些年,2D检测任务在自动驾驶的热度递减,取而代之的是3D任务,毕竟现在的实际场景一直多是基于3D场景。但是在3D检测或者分割等任务中,雷达赋予了一个不一样的角色,在之前FOV视角中,毫米波点云大多为了与FOV特征融合,都是通过投影这一种方法,而放到3D场景中,分为两个流派:一个是点云流派:由于lidar和radar具有天然的相似性(当然是处理后的点云),自然就有lidar的相关角色赋予毫米波雷达,相应的,毫米波的角色从FOV到了BEV,它的下游任务,也从辅助为主到BEV下的分割、深度估计、生成密集点云等。
毫米波雷达在多模态视觉任务上的近期工作及简析(下)
|
机器学习/深度学习 存储 编解码
|
机器学习/深度学习 算法 视频直播
|
机器学习/深度学习 人工智能 算法
腾讯AI Lab公布首项研究:提出独特神经网络实现实时视频风格变换
风格变换一直是机器学习领域内的一项重要任务,很多研究机构和研究者都在努力打造速度更快、计算成本更低的风格变换机器学习系统,比如《怎么让你的照片带上艺术大师风格?李飞飞团队开源快速神经网络风格迁移代码》、《谷歌增强型风格迁移新算法:实现基于单个网络的多种风格实时迁移》。如今新成立的腾讯 AI Lab 也加入了此行列,在此文章中机器之心对腾讯 AI Lab 的视频风格变换的研究进行了独家报道。
216 0
腾讯AI Lab公布首项研究:提出独特神经网络实现实时视频风格变换
|
传感器 计算机视觉 机器学习/深度学习
ECCV18 | 谷歌普林斯顿提出首个端到端立体双目系统深度学习方案
本文是计算机视觉顶会ECCV 2018录取论文中备受关注的一篇,来自谷歌&普林斯顿大学的研究人员提出了第一个主动双目立体成像系统的深度学习解决方案,在诸多具有挑战性的场景中展示出最先进的结果。
4519 0

热门文章

最新文章