文档视界 最新最全的文档下载
当前位置:文档视界 › 音频编解码标准样本

音频编解码标准样本

音频编解码标准样本
音频编解码标准样本

音频编解码标准汇总

PCM编码(原始数字音频信号流)

类型: Audio

制定者: ITU-T

所需频宽: 1411.2 Kbps

特性: 音源信息完整, 但冗余度过大

优点: 音源信息保存完整,音质好

缺点: 信息量大, 体积大, 冗余度过大

应用领域: voip

版税方式: Free

备注: 在计算机应用中, 能够达到最高保真水平的就是PCM编码, 被广泛用于素材保存及音乐欣赏, CD、 DVD以及我们常见的WAV文件中均有应用。因此, PCM约定俗成了无损编码, 因为PCM代表了数字音频中最佳的保真水准, 并不意味着PCM就能够确保信号绝对保真, PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情, 采样率值×采样大小值×声道数bps。一个采样率为44.1KHz, 采样大小为16bit, 双声道的PCM编码的WAV 文件, 它的数据速率则为44.1K×16×2=1411.2 Kbps。我们常见的Audio CD就采用了PCM编码, 一张光盘的容量只能容纳72分钟的音乐信息。

WMA(Windows Media Audio)

类型: Audio

制定者: 微软公司

所需频宽: 320~112kbps( 压缩10~12倍)

特性: 当Bitrate小于128K时, WMA几乎在同级别的所有有损编码格式中表现得最出众, 但似乎128k是WMA一个槛, 当Bitrate再往上提升时, 不会有太多的音质改变。

优点: 当Bitrate小于128K时, WMA最为出众且编码后得到的音频文件很小。缺点: 当Bitrate大于128K时, WMA音质损失过大。WMA标准不开放, 由微软掌握。

应用领域: voip

版税方式: 按个收取

备注: WMA的全称是Windows Media Audio, 它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3, 更是远胜于RA(Real Audio), 即使在较低的采样频率下也能产生较好的音质, 再加上WMA有微软的Windows Media Player做其强大的后盾, 因此一经推出就赢得一片喝彩。

PCMU(G.711U)

类型: Audio

制定者: ITU-T

所需频宽: 64Kbps(90.4)

特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。

优点: 语音质量优

缺点: 占用的带宽较高

应用领域: voip

版税方式: Free

备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低, 能够选用低比特速率的编码方法, 如G.723

或G.729, 这两种编码的方法也能达到传统长途电话的音质, 可是需要很少的带宽( G723需要5.3/6.3kbps, G729需要8kbps) 。如果带宽足够而且需要更好的语音质量, 就使用PCMU 和PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。

PCMA(G.711A)

类型: Audio

制定者: ITU-T

所需频宽: 64Kbps(90.4)

特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。

优点: 语音质量优

缺点: 占用的带宽较高

应用领域: voip

版税方式: Free

备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低, 能够选用低比特速率的编码方法, 如G.723或G.729, 这两种编码的方法也能达到传统长途电话的音质, 可是需要很少的带宽( G723需要5.3/6.3kbps, G729需要8kbps) 。如果带宽足够而且需要更好的语音质量, 就使用PCMU 和PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。

ADPCM(自适应差分PCM)

类型: Audio

制定者: ITU-T

所需频宽: 32Kbps

特性: ADPCM(adaptive difference pulse code modulation)综合了APCM 的自适应特性和DPCM系统的差分特性, 是一种性能比较好的波形编码。它的核心想法是:

①利用自适应的思想改变量化阶的大小, 即使用小的量化阶(step-size)去编码小的差值, 使用大的量化阶去编码大的差值;

②使用过去的样本值估算下一个输入样本的预测值, 使实际样本值和预测值之间的差值总是最小。

优点: 算法复杂度低, 压缩比小( CD音质>400kbps) , 编解码延时最短( 相对其它技术)

缺点: 声音质量一般

应用领域: voip

版税方式: Free

备注: ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的16bit 数据以4bit 存储, 因此压缩比1:4. 而压缩/解压缩算法非常的简单, 因此是一种低空间消耗,高质量声音获得的好途径。

LPC(Linear Predictive Coding, 线性预测编码)

类型: Audio

制定者:

所需频宽: 2Kbps-4.8Kbps

特性: 压缩比大, 计算量大, 音质不高, 廉价

优点: 压缩比大,廉价

缺点: 计算量大, 语音质量不是很好, 自然度较低

应用领域: voip

版税方式: Free

备注: 参数编码又称为声源编码, 是将信源信号在频率域或其它正交变换域提取特征参数, 并将其变换成数字代码进行传输。译码为其反过程, 将收到的数字序列经变换恢复特征参量, 再根据特征参量重建语音信号。具体说, 参数编码是经过对语音信号特征参数的提取和编码, 力图使重建语音信号具有尽可能高的准确性, 但重建信号的波形同原语音信号的波形可能会有相当大的差别。如: 线性预测编码( LPC) 及其它各种改进型都属于参数编码。该编码比特率可压缩到2Kbit/s-4.8Kbit/s, 甚至更低, 但语音质量只能达到中等, 特别是自然度较低。

CELP(Code Excited Linear Prediction, 码激励线性预测编码)

类型: Audio

制定者: 欧洲通信标准协会( ETSI)

所需频宽: 4~16Kbps的速率

特性: 改进语音的质量:

①对误差信号进行感觉加权, 利用人类听觉的掩蔽特性来提高语音的主观质量;

②用分数延迟改进基音预测, 使浊音的表示更为准确, 特别改进了女性语音的质量;

③使用修正的MSPE准则来寻找”最佳”的延迟, 使得基音周期延迟的外形更为平滑;

④根据长时预测的效率, 调整随机激励矢量的大小, 提高语音的主观质量; ⑤使用基于信道错误率估计的自适应平滑器, 在信道误码率较高的情况下也能合成自然度较高的语音。

结论:

①CELP算法在低速率编码环境下能够得到令人满意的压缩效果;

②使用快速算法, 能够有效地降低CELP算法的复杂度, 使它完全能够实时地实现;

③CELP能够成功地对各种不同类型的语音信号进行编码, 这种适应性对于真实环境, 特别是背景噪声存在时更为重要。

优点: 用很低的带宽提供了较清晰的语音

缺点:

应用领域: voip

版税方式: Free

备注: 1999年欧洲通信标准协会( ETSI) 推出了基于码激励线性预测编码( CELP) 的第三代移动通信语音编码标准自适应多速率语音编码器( AMR) , 其中最低速率为 4.75kb/s, 达到通信质量。CELP 码激励线性预测编码是Code Excited Linear Prediction的缩写。CELP是近来最成功的语音编码算法。

CELP语音编码算法用线性预测提取声道参数, 用一个包含许多典型的激励矢量的码本作为激励参数, 每次编码时都在这个码本中搜索一个最佳的激励矢量, 这个激励矢量的编码值就是这个序列的码本中的序号。

CELP已经被许多语音编码标准所采用, 美国联邦标准FS1016就是采用CELP的编码方法, 主要用于高质量的窄带语音保密通信。CELP (Code-Excited Linear Prediction) 这是一个简化的LPC 算法, 以其低比特率著称(4800-9600Kbps), 具有很清晰的语音品质和很高的背景噪音免疫性。CELP是一种在中低速率上广泛使用的语音压缩编码方案。

G.711

类型: Audio

音频的编解码

音频编码解码基本概念介绍 对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理,分别是语音和音乐,各自采用的技术有差异。 语音编码技术又分为三类:波形编码、参数编码以及混合编码。 波形编码:波形编码是在时域上进行处理,力图使重建的语音波形保持原始语音信号的形状,它将语音信号作为一般的波形信号来处理,具有适应能力强、话音质量好等优点,缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点,通过为小信号分配小的量化阶,为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音,只对它们的差进行编码,从而大大减少了编码数据的动态范围,节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶,使得量阶与量化数据相匹配。G.726标准中应用了这两项技术,G.722标准把语音分成高低两个子带,然后在每个子带中分别应用这两项技术。 参数编码:广泛应用于军事领域。利用语音信息产生的数学模型,提取语音信号的特征参量,并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上,力图使重建语音信号具有尽可能高的可懂性,而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高,但重建音频信号的质量较差,自然度低,适用于窄带信道的语音通讯,如军事通讯、航空通讯等。美国的军方标准LPC-10,就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术,当它在无声信号片段时,激励信号与在CELP时相似,都是通过一个码本索引和通过幅度信息描述;在发声信号片段时则应用了谐波综合,它是将基音和谐音的正弦振荡按照传输的基频进行综合。 混合编码:将上述两种编码方法结合起来,采用混合编码的方法,可以在较低的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(4~16 kbps)。混合编码器采用合成分析技术。

mp3解码算法原理详解

MPEG1 Layer3 (MP3)解码算法原理详解 本文介绍了符合ISO/IEC 11172-3(MPEG 1 Audio codec Layer I, Layer II and Layer III audio specifications) 或 ISO/IEC 13818-3(BC Audio Codec)的音频编码原理。通过madlib解码库进行实现。 1、程序系统结构 mp3解码流程图 其中同步及差错检查包括了头解码模块 在主控模块开始运行后,主控模块将比特流的数据缓冲区交给同步及差错检查模块,此模块包含两个功能,即头信息解码及帧边信息解码,根据它们的信息进行尺度因子解码及哈夫曼解码,得出的结果经过逆量化,立体声解码,混淆缩减,IMDCT,频率反转,合成多相滤波这几个模块之后,得出左右声道的PCM码流,再由主控模块将其放入输出缓冲区输出到声音播放设备。 2、主控模块

主控模块的主要任务是操作输入输出缓冲区,调用其它各模块协同工作。 其中,输入输出缓冲区均由DSP控制模块提供接口。 输入缓冲区中放的数据为原始mp3压缩数据流,DSP控制模块每次给出大于最大可能帧长度的一块缓冲区,这块缓冲区与上次解帧完后的数据(必然小于一帧)连接在一起,构成新的缓冲区。 输出缓冲区中将存放的数据为解码出来的PCM数据,代表了声音的振幅。它由一块固定长度的缓冲区构成,通过调用DSP控制模块的接口函数,得到头指针,在完成输出缓冲区的填充后,调用中断处理输出至I2S接口所连接的音频ADC芯片(立体声音频DAC和DirectDrive耳机放大器)输出模拟声音。 3、同步及差错检测 同步及差错检测模块主要用于找出数据帧在比特流中的位置,并对以此位置开始的帧头、CRC校验码及帧边信息进行解码,这些解码的结果用于后继的尺度因子解码模块和哈夫曼解码模块。Mpeg1 layer 3的流的主数据格式见下图: 主数据的组织结构图 其中granule0和granule1表示在一帧里面的粒度组1和粒度组2,channel0 和channel1表示在一个粒度组里面的两个通道,scalefactor为尺度因子quantized value为量化后的哈夫曼编码值,它分为big values大值区和count1 1值区 CRC校验:表达式为X16+X15+X2+1 3.1 帧同步 帧同步目的在于找出帧头在比特流中的位置,ISO 1172-3规定,MPEG1 的帧头为12比特的“1111 1111 1111”,且相邻的两个帧头隔有等间距的字节数,这个字节数可由下式算出: N= 144 * 比特率 / 采样率 如果这个式子的结果不是整数,那么就需要用到一个叫填充位的参数,表示间距为N +1。

数字音视频编解码技术标准工作组

数字音视频编解码技术标准工作组 A VS Mxxxx: 201X年XX月 来源: 包括作者、单位名称等与创作者相关的信息 标题: 状态: 描述文件的版本或其他需要说明的信息,例如视频提案、DRM信息等 ___________________________________________________ 正文 中国数字音视频编解码技术标准工作组 会员提案专利披露与许可承诺表 根据《中国数字音视频编解码技术标准工作组知识产权政策》第十四、十五、十六条等相关规定,A VS会员在向工作组各专题组提交技术提案时应填写本《会员提案专利披露与许可承诺表》,作为该提案的必要组成部分同时提交。 专题组名称:音频□视频□系统□DRM□ 提案A VS文档编号:_ 提案日期:________ 提案标题: 提案会员名称:_ 提案代表姓名(印刷体):Email: 提案代表通讯地址:邮编 电话:______ __ 传真:__ ______________________ 提案会员应当通过选中表A或者通过选中并填写表B相关部分完成此表。表C可以自愿填写。下列表格均可根据实际需要增加表格行。 表A: 提案会员在其实际知晓的范围内已获知本提案不涉及提案会员和他人的专利、专利申请和专利计划。□ 表B-1: 在中华人民共和国已获得授权的专利和/或已公开的专利申请□ 如果本提案中包含提案会员或其关联者在中华人民共和国已获得授权的专利和/或已公开的专利申请,提案会员应当填写下表: 表B-2: 在中华人民共和国未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的未公

AAC的ADTS格式及解码算法详解

AAC的ADTS格式及解码算法详解 本文详细介绍了符合ISO/IEC 13818-7(MPEG2 AAC audio codec) , ISO/IEC 14496-3(MPEG4 Audio Codec AAC Low Complexity)进行压缩的的AAC音频的解码算法。 1、程序系统结构 下面是AAC解码流程图: AAC解码流程图 在主控模块开始运行后,主控模块将AAC比特流的一部分放入输入缓冲区,通过查找同步字得到一帧的起始,找到后,根据ISO/IEC 13818-7所述的语法开始进行Noisless Decoding(无噪解码),无噪解码实际上就是哈夫曼解码,通过反量化(Dequantize)、联合立体声(Joint Stereo),知觉噪声替换(PNS),瞬时噪声整形(TNS),反离散余弦变换(IMDCT),频段复制(SBR)这几个模块之后,得出左右声道的PCM码流,再由主控模块将其放入输出缓冲区输出到声音播放设备。 2. 主控模块 主控模块的主要任务是操作输入输出缓冲区,调用其它各模块协同工作。其中,输入输出缓冲区均由DSP控制模块提供接口。输出缓冲区中将存放的数据为解码出来的PCM数据,代表了声音的振幅。它由一块固定长度的缓冲区构成,通过调用DSP控制模块的接口函数,得到头指针,在完成输出缓冲区的填充后,调用中断处理输出至I2S接口所连接的音频ADC 芯片(立体声音频DAC和DirectDrive耳机放大器)输出模拟声音。 3. 同步及元素解码 同步及元素解码模块主要用于找出格式信息,并进行头信息解码,以及对元素信息进行解码。这些解码的结果用于后续的无噪解码和尺度因子解码模块。 AAC的音频文件格式有以下两种: ADIF:Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。 ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。 AAC的ADIF格式见下图: 3.1 ADIF的组织结构 AAC的ADTS的一般格式见下图:

视音频编解码技术及应用

工科类 信息工程学院本科论文 题目:视音频编解码技术及应用 别系:信息工程学院 专业:信息工程 届次: 2012届 学号: 2012041183 姓名:焦杰 指导教师:杨宇老师 2014年9月28日

视音频编解码技术及应用 (——视音频编解码技术及应用 焦杰 【摘要】首先分析了在各个不同的历史阶段为满足不同的需求而提出的各种音频编解码器,讨论了最常见编解码器的特征和性能。然后考虑了它们对当前和未来移动通信需求的适应性,比较了各种音频编解码器的性能。最后给出了一些音频编解码器在移动通信系统中的应用。 【关键词】音频编解码器;增强的高效高级音频编码;增强的自适应多码率宽带音频编码;可变速率多模式宽带音频编码;谱带恢复。 1 引言 当今,各种各样的音频编解码器广泛应用于Et常生活中。选择哪种编解码器通常取决于以下因素:音频素材的内容类型、可用通信速率和收听场合对音质的要求。可能影响编解码器选择的其它因素,还包括标准化情形、专利费和市场品牌。尽管MP3格式已获得了很大的成功,但它不适合于移动设备。近来,效率较高的编解码器(如AAC和AMR)已被提出,并为适应移动的音频应用而不断改进。 笔者将通过揭示音频编码和解码的技术原理、标准化情形以及涉及可用技术和市场需求的编解码器的适应性来评估最常见的音频编解码器,同时也考虑到移动通信领域在硬件和软件上的发展状况,分析现有和将来的音频应用,以阐明对移动音频的需求和期待。 2 音频编解码器的历史背景 音频编解码器的简短历史可追溯到20世纪80年代中期,德国Fraunhofer 研究所首先开始从事高质量、低码率的音频编码研究。他们的项目作为面向市场的尤里卡(Eureka)研究计划(EU一147)的一个部分得到了欧盟的财政资助。1989

(完整)流媒体传输协议及音视频编解码技术

1.1音视频编解码技术 1.1.1 MPEG4 MPEG全称是Moving Pictures Experts Group,它是“动态图象专家组”的英文缩写,该专家组成立于1988年,致力于运动图像及其伴音的压缩编码标准化工作,原先他们打算开发MPEG1、MPEG2、MPEG3和MPEG4四个版本,以适用于不同带宽和数字影像质量的要求。 目前,MPEG1技术被广泛的应用于VCD,而MPEG2标准则用于广播电视和DVD等。MPEG3最初是为HDTV开发的编码和压缩标准,但由于MPEG2的出色性能表现,MPEG3只能是死于襁褓了。MPEG4于1999年初正式成为国际标准。它是一个适用于低传输速率应用的方案。与MPEG1和MPEG2相比,MPEG4更加注重多媒体系统的交互性和灵活性MPEG1、MPEG2技术当初制定时,它们定位的标准均为高层媒体表示与结构,但随着计算机软件及网络技术的快速发展,MPEG1、MPEG2技术的弊端就显示出来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网络的实时传播。而MPEG4技术的标准是对运动图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频,术语称为“AV对象”,而连续的AV对象组合在一起又可以形成AV场景。因此,MPEG4标准就是围绕着AV对象的编码、存储、传输和组合而制定的,高效率地编码、组织、存储、传输AV 对象是MPEG4标准的基本内容。 在视频编码方面,MPEG4支持对自然和合成的视觉对象的编码。(合成的视觉对象包括2D、3D动画和人面部表情动画等)。在音频编码上,MPEG4可以在一组编码工具支持下,对语音、音乐等自然声音对象和具有回响、空间方位感的合成声音对象进行音频编码。 由于MPEG4只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减少了合成多媒体文件的体积。应用MPEG4技术的影音文件最显著特点就是压缩率高且成像清晰,一般来说,一小时的影像可以被压缩为350M左右的数据,而一部高清晰度的DVD电影, 可以压缩成两张甚至一张650M CD光碟来存储。对广大的“平民”计算机用户来说,这就意味着, 您不需要购置DVD-ROM就可以欣赏近似DVD质量的高品质影像。而且采用MPEG4编码技术的影片,对机器硬件配置的要求非常之低,300MHZ 以上CPU,64M的内存和一个8M显存的显卡就可以流畅的播放。在播放软件方面,它要求也非常宽松,你只需要安装一个500K左右的MPEG4 编码驱动后,用WINDOWS 自带的媒体播放器就可以流畅的播放了 AV对象(AVO,Audio Visual Object)是MPEG-4为支持基于内容编码而提出的重要概念。对象是指在一个场景中能够访问和操纵的实体,对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所见的音视频已不再是过去MPEG-1、MPEG-2中图像帧的概念,而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成。AV对象是听觉、视觉、或者视听内容的表示单元,其基本单位是原始AV对象,它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可交互性的特性,它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输。AV对象的提出,使多媒体通信具有高度交互及高效编码的能力,AV对象编码就是MPEG-4的核心编码技术。 MPEG-4不仅可提供高压缩率,同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统,可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器,以支持多种多媒体应用 1.1.2 H264 H.264是由ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)联合组建的联合视频组(JVT:joint video team)提出的一个新的数字视频编码标准,

各种音视频编解码学习详解 h264

各种音视频编解码学习详解h264 ,mpeg4 ,aac 等所有音视频格式 编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。wiki的中文还是很不错的,但是阅读后建议再阅读英文。 我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。 基本概念 编解码 编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。 容器 很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。 FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、a vi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。因此wav、avi大量存在等于―IDP3‖的FourCC。 视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。 参数介绍 采样率 采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称―位速率‖)相混淆。

音频编解码介绍

音频编解码原理介绍 一.为什么要进行音频编解码 二.音频编解码原理 三.几种基本音频编解码介绍 一、为什么要进行音频编解码 随着人们对多媒体图像和声音的要求越来越高,在高清晰数字电视(HDTV)和数字电影中不仅应有高质量的图像,也应当具有CD质量的立体声。因为用数字方法记录声音比用模拟方法记录声音具有更强的优势,例如传输时抗噪声能力强、增加音频动态范围、多次翻录没有信号衰减等。但是数字声音最大的缺陷是记录的数据量大,表现在两个方面:其一是在传输过程中,传输数字声音需要占用很宽的传输带宽;其二是在存储过程中,需要占用大量的存储空间。所以在数字音频中需要采用数字音频压缩技术,对音频数据进行压缩。 二、音频编解码原理 每张CD光盘重放双声道立体声信号可达74分钟。VCD视盘机要同时重放声音和图像,图像信号数据需要压缩,其伴音信号数据也要压缩,否则伴音信号难于存储到VCD光盘中。 一、伴音压缩编码原理 伴音信号的结构较图像信号简单一些。伴音信号的压缩方法与图像信号压缩技术有相似性,也要从伴音信号中剔除冗余信息。人耳朵对音频信号的听觉灵敏度有规律性,对于不同频段或不同声压级的伴音有其特殊的敏感特性。在伴音数据压缩过程中,主要应用了听觉阈值及掩蔽效应等听觉心理特性。 1、阈值和掩蔽效应 (1) 阈值特性 人耳朵对不同频率的声音具有不同的听觉灵敏度,对低频段(例如100Hz以下)和超高频段(例如16KHZ以上)的听觉灵敏度较低,而在1K-5KHZ的中音频段时,听觉灵敏度明显提高。通常,将这种现象称为人耳的阈值特性。若将这种听觉特性用曲线表示出来,就称为人耳的阈值特性曲线,阈值特性曲线反映该特性的数值界限。将曲线界限以下的声音舍弃掉,对人耳的实际听音效果没有影响,这些声音属于冗余信息。 在伴音压缩编码过程中,应当将阈值曲线以上的可听频段的声音信号保留住,它是可听频段的主要成分,而那些听觉不灵敏的频段信号不易被察觉。应当保留强大的信号,忽略舍弃弱小的信号。经过这样处理的声音,人耳在听觉上几乎察觉不到其失真。在实际伴音压缩编码过程中,也要对不同频段的声音数据进行量化处理。可对人耳不敏感频段采用较粗的量化步长进行量化,可舍弃一些次要信息;而对人耳敏感频段则采用较细小的量化步长,使用较多的码位来传送。 (2)掩蔽效应 掩蔽效应是人耳的另一个重要生理特征。如果在一段较窄的频段上存在两种声音信号,当一个强度大于另一个时,则人耳的听觉阈值将提高,人耳朵可以听到大音量的声音信号,而其附近频率小音量的声音信号却听不到,好像是小音量信号被大音量信号掩蔽掉了。由于其它声音信号存在而听不到本声音存在的现象,称为掩蔽效应。 根据人耳的掩蔽特性,可将大音量附近的小音量信号舍弃掉,对实际听音效果不会发生影响。既使保留这些小音量信号,人耳也听不到它们的存在,它属于伴音信号中的冗余信息。舍弃掉这些信号,可以进一步压缩伴音数据总量。

数字音视频编解码技术标准工作组知识产权政策

数字音视频编解码技术标准工作组知识产权政策

————————————————————————————————作者:————————————————————————————————日期:

数字音视频编解码技术标准工作组知识产权政策 (2004年9月12日第十次工作会议通过实施) (2008年3月29日第二十四次工作会议修订) 第一章、总则 第一条本知识产权政策文件(“知识产权政策”)规定了中国数字音视频编解码技术标准工作组(“工作组”)的与制订A VS技术标准的整个过程及其所产生的标准文 档相关的知识产权的管理规则。 第二条通过签署A VS会员协议,会员书面承诺该会员及其关联者及其工作组成员同意并遵守本知识产权政策的条款。 第三条本知识产权政策是A VS会员协议的必要组成部分,并通过引用纳入会员协议。 第二章、定义 第四条对于在本知识产权政策中使用并且在A VS章程、A VS会员协议和A VS章程细则中已有定义的词语,其含义应遵从有关文件中的定义。以下词语在本知识产 权政策中定义为以下含义: 1、“符合部分”仅指有关产品或服务中实施并符合最终A VS 标准的所有相关规范性要求的特定部分,这些规范性要求应当 在最终A VS标准中明确公开,并且其目的是为了使产品或服 务能够实现该最终AVS标准所定义的解码、编码、发送数字 媒体或识别和实施权利管理。 2、“必要权利要求”是指根据授权或公布专利的所在国法律, 被最终A VS标准的符合部分不可避免地侵权的该专利中的某 一权利要求,且仅限于该权利要求。 专利的某一权利要求被不可避免地侵权,是指该侵权不可能在 实施最终A VS标准时通过采用另一个技术上可行的不侵权的 实施方式予以避免。 必要权利要求不包括,并且许可也不适用于:(1)不符合上文 规定的其他权利要求,即使该权利要求包含在同一件专利中; (2)在最终的A VS标准文档中引用或以参考方式包括在内的 其他标准中涉及的权利要求;(3)制造或使用符合最终AVS 标准文档的任何产品、服务及其部分时可能必要,但没有明确 地在该标准文档中描述的实现技术。 3、“专利”是指许可方或其关联者拥有的或者在无需向非关联 第三方付费的情况下有权许可的,在任何国家授权的任何专 利、可执行的发明证书、授权的实用新型、或公布提请异议的 任何可执行的专利申请或实用新型申请,但不包括外观设计专 利和外观设计登记。 4、“规范性参考文件”是指并非由工作组制定而是通过引用包

音频编解码技术的延时问题

SBC编解码器在A2DP协议里是必不可少的。由于是将信号以帧的形式填充到蓝牙数据包中,其整体延迟时间比较高,主要归于以下几个因素: 1.编解码器延迟:每个音频编解码器在将数据进行编码、解码并发出去之前会造成一定的内部延迟。传统的编解码器已检测到高达50ms的编解码器延迟。 2.传输延迟:A2DP传输层采用数据包结构。工程师在使用基于SBC或感知的帧填充数据包时,有两个方案选择:其一是将一个帧放入大型蓝牙数据包中(图1);其二是将一个帧分解成两个蓝牙数据包(图2)。采用第一个方案会降低数据传输的稳健性,而在第二个方案中,解码器只有在接收到两个蓝牙数据包以后才能对分解帧进行解码,因此将大大增加传输延迟时间。 图1

图2 apt-X是CSR 公司专有的一种编码格式,压缩率4:1(约352 kbit/s),号称可以达到CD 音质。由于是专有格式,必须要求播放设备与接受设备均采用CSR的蓝牙模块才行。 特点:无缓冲,低延迟,如果出现数据包损失的话,几乎无需重传数据。apt-X不同于SBC,它采用无框架结构。解码过程中,aptX编解码器无需等待便可高效地对蓝牙数据包进行填充,也就是说,一旦它接收到数据包便即刻启动解码过程,无需等待(图3)。此外,aptX采用固定压缩率算法,可在传输过程中始终提供相同的比特率,从而保证每个配备aptX的产品输出相同的音质。 aptX具备的一系列独特特性在提供专业的音频性能及稳健性的同时,还可保证40ms的编解码延迟。 图3 关于解码方式的一个比喻: 我们可以想象一个四车道的高速公路经过一座只有单车道的桥。使用aptX技术相当于桥头上的收费站将四车道上的车流处理(或编码)成单车道队列,使其能够穿桥而过。然后,在桥尾有另一个收费站将单车道车流又处理(或解码)回四车道。 SBC、AAC 和MP3技术的这些收费站,会限制通过车辆所允许携带的汽油量,这样每辆车都必须将超出限量的汽油放掉。当他们通过桥另一端的收费站后,虽然汽油也许不会全部用完,但肯定比来时要少很多。此外,一旦您过了桥,之前放掉的汽油不会再还给您。换句话说,您永远失去了这些汽油。对重现音频这一事件来说,相当于上述几种解码方法使用更具破坏性的压缩技术来处理音频数据,使其能通过蓝牙传输,这意味着它们将扔掉自认为不重要的音频元素,仅重现有限的音频带宽。 SBC与aptX差别: 与SBC(Sub-Band Codec子带编解码)技术相比,aptX的优势比较明显: 在频率响应方面,aptX可以在整个频率范围内真实还原音频,SBC则会随着频率的增高,信号渐弱,从而导致失真显著。

各种音视频编解码学习详解

各种音视频编解码学习详解 编解码学习笔记(一):基本概念 媒体业务是网络的主要业务之间。尤其移动互联网业务的兴起,在运营商和应用开发商中,媒体业务份量极重,其中媒体的编解码服务涉及需求分析、应用开发、释放license收费等等。最近因为项目的关系,需要理清媒体的codec,比较搞的是,在豆丁网上看运营商的规范标准,同一运营商同样的业务在不同文档中不同的要求,而且有些要求就我看来应当是历史的延续,也就是现在已经很少采用了。所以豆丁上看不出所以然,从wiki上查。中文的wiki信息量有限,很短,而wiki的英文内容内多,删减版也减肥得太过。我在网上还看到一个山寨的中文wiki,长得很像,红色的,叫―天下维客‖。wiki的中文还是很不错的,但是阅读后建议再阅读英文。 我对媒体codec做了一些整理和总结,资料来源于wiki,小部分来源于网络博客的收集。网友资料我们将给出来源。如果资料已经转手几趟就没办法,雁过留声,我们只能给出某个轨迹。 基本概念 编解码 编解码器(codec)指的是一个能够对一个信号或者一个数据流进行变换的设备或者程序。这里指的变换既包括将信号或者数据流进行编码(通常是为了传输、存储或者加密)或者提取得到一个编码流的操作,也包括为了观察或者处理从这个编码流中恢复适合观察或操作的形式的操作。编解码器经常用在视频会议和流媒体等应用中。 容器 很多多媒体数据流需要同时包含音频数据和视频数据,这时通常会加入一些用于音频和视频数据同步的元数据,例如字幕。这三种数据流可能会被不同的程序,进程或者硬件处理,但是当它们传输或者存储的时候,这三种数据通常是被封装在一起的。通常这种封装是通过视频文件格式来实现的,例如常见的*.mpg, *.avi, *.mov, *.mp4, *.rm, *.ogg or *.tta. 这些格式中有些只能使用某些编解码器,而更多可以以容器的方式使用各种编解码器。 FourCC全称Four-Character Codes,是由4个字符(4 bytes)组成,是一种独立标示视频数据流格式的四字节,在wav、avi档案之中会有一段FourCC来描述这个AVI档案,是利用何种codec来编码的。因此wav、avi大量存在等于―IDP3‖的FourCC。 视频是现在电脑中多媒体系统中的重要一环。为了适应储存视频的需要,人们设定了不同的视频文件格式来把视频和音频放在一个文件中,以方便同时回放。视频档实际上都是一个容器里面包裹着不同的轨道,使用的容器的格式关系到视频档的可扩展性。 参数介绍 采样率 采样率(也称为采样速度或者采样频率)定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。采样频率的倒数叫作采样周期或采样时间,它是采样之间的时间间隔。注意不要将采样率与比特率(bit rate,亦称―位速率‖)相混淆。 采样定理表明采样频率必须大于被采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样信号的带宽。如果信号的带宽是100Hz,那么为了避免混叠现象采样频率必须大于200Hz。换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。 对于语音采样: ?8,000 Hz - 电话所用采样率, 对于人的说话已经足够 ?11,025 Hz ?22,050 Hz - 无线电广播所用采样率 ?32,000 Hz - miniDV 数码视频camcorder、DAT (LP mode)所用采样率 ?44,100 Hz - 音频CD, 也常用于MPEG-1 音频(VCD, SVCD, MP3)所用采样率

音频编码及常用格式

音频编码及常用格式 音频编码标准发展现状 国际电信联盟(ITU)主要负责研究和制定与通信相关的标准,作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成,并广泛应用于全球的电话通信系统之中。目前,随着Internet网络及其应用的快速发展,在2005到2008研究期内,ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。 在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(相应于64Kb/s的比特率)。该量化器所采用的技术在1972年由CCITT (ITU-T的前身)标准化为G.711。在1983年,CCIT规定了32Kb/s的语音编码标准G.721,其目标是在通用电话网络上的应用(标准修正后称为G.726)。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准,在欧洲,TCH-HS是欧洲电信标准研究所(ETSI)的一部分,由他们负责制定数字蜂窝标准。在北美,这项工作是由电信工业联盟(TIA)负责执行。在日本,由无线系统开发和研究中心(称为RCR)组织这些标准化的工作。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也已经制定了一系列的卫星电话应用标准。 音频编码标准发展现状 音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法,一种称为MPEG2后向兼容多声道音频编码标准,简称MPEG2BC;另一种是称为高级音频编码标准,简称MPEG2AAC,因为它与MPEG1不兼容,也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。

音频编解码原理讲解和分析

音频编码原理讲解和分析 作者:谢湘勇,算法部,xie.chris@https://www.docsj.com/doc/fc3786934.html, 2007-10-13 简述 (2) 音频基本知识 (2) 采样(ADC) (3) 心理声学模型原理和分析 (3) 滤波器组和window原理和分析 (6) Window (6) TDAC:时域混叠抵消,time domain aliasing cancellation (7) Long and short window、block switch (7) FFT、MDCT (8) Setero and couple原理和分析 (8) 量化原理和分析 (9) mp3、AAC量化编码的过程 (9) ogg量化编码的过程 (11) AC3量化编码的过程 (11) Huffman编码原理和分析 (12) mp3、ogg、AC3的编码策略 (12) 其他技术原理简介 (13) 比特池技术 (13) TNS (13) SBR (13) 预测模型 (14) 增益控制 (14) OGG编码原理和过程详细分析 (14) Ogg V orbis的引入 (14) Ogg V orbis的编码过程 (14) ogg心理声学模型 (15) ogg量化编码的过程 (16) ogg的huffman编码策略 (17) 主要音频格式编码对比分析 (19) Mp3 (19) Ogg (20) AAC (21) AC3 (22) DRA(A VS内的中国音频标准多声道数字音频编码) (23) BSAC,TwinVQ (24) RA (24) 音频编码格式的对比分析 (25) 主要格式对比表格如下 (26) 语音编码算法简介 (26) 后处理技术原理和简介 (28) EQ (28)

常见的音频编码标准

常见的音频编码标准 在自然界中人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。然而,3G网络带来了移动多媒体业务的蓬勃发展,视频、音频编解码标准是多媒体应用的基础性标准,但其种类较多,有繁花渐欲迷人眼之感。那么常见的编码技术就是我们必须知道的,下面我们介绍一下最常见的编码技术。 1.PCM PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 2.W A V WA V是Microsoft Windows本身提供的音频格式,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式。实际上是Apple电脑的AIFF格式的克隆。通常我们使用W A V格式都是用来保存一些没有压缩的音频,但实际上W A V格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,换句话说,只要有软件支持,你甚至可以在W A V格式里面存放图像。之所以能这样,是因为W A V文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。在WINDOWS 平台上通过ACM(Audio Compression Manager)结构及相应的驱动程序(通常称为CODEC,编码/解码器),可以在W A V文件中存放超过20种的压缩格式,比如ADPCM、GSM、CCITT G.711、G.723等等,当然也包括MP3格式。 虽然W A V文件可以存放压缩音频甚至MP3,但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括:Sound Forge, Cool Edit Pro, 等等。 3.MP3 MP3它的全称是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。这个比喻相信大家都会同意。MP3是Fraunhofer-IIS研究的研究成果。MP3是第一个实用的有损音频压缩编码。在MP3出现之前,一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。 由于MP3是世界上第一个有损压缩的编码方案,所以可以说所有的播放软件都支持它,否则就根本没有生命力。在制作方面,也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer-IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的

音频解码标准样本

音频编解码标准 PCMU(G.711U) 类型: Audio 制定者: ITU-T 所需频宽: 64Kbps(90.4) 特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。 优点: 语音质量优 缺点: 占用的带宽较高 应用领域: voip 版税方式: Free 备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低, 能够选用低比特速率的编码方法, 如G.723或G.729, 这两种编码的方法也能达到传统长途电话的音质, 可是需要很少的带宽( G723需要5.3/6.3kbps, G729需要8kbps) 。如果带宽足够而且需要更好的语音质量, 就使用PCMU 和 PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。 PCMA(G.711A) 类型: Audio 制定者: ITU-T 所需频宽: 64Kbps(90.4) 特性: PCMU和PCMA都能提供较好的语音质量, 可是它们占用的带宽较高, 需要64kbps。 优点: 语音质量优 缺点: 占用的带宽较高

应用领域: voip 版税方式: Free 备注: PCMU and PCMA都能够达到CD音质, 可是它们消耗的带宽也最多(64kbps)。如果网络带宽比较低, 能够选用低比特速率的编码方法, 如G.723或G.729, 这两种编码的方法也能达到传统长途电话的音质, 可是需要很少的带宽( G723需要5.3/6.3kbps, G729需要8kbps) 。如果带宽足够而且需要更好的语音质量, 就使用PCMU 和 PCMA, 甚至能够使用宽带的编码方法G722(64kbps), 这能够提供有高保真度的音质。 ADPCM(自适应差分PCM) 类型: Audio 制定者: ITU-T 所需频宽: 32Kbps 特性: ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性, 是一种性能比较好的波形编码。它的核心想法是: ①利用自适应的思想改变量化阶的大小, 即使用小的量化阶(step-size)去编码小的差值, 使用大的量化阶去编码大的差值; ②使用过去的样本值估算下一个输入样本的预测值, 使实际样本值和预测值之间的差值总是最小。 优点: 算法复杂度低, 压缩比小( CD音质>400kbps) , 编解码延时最短( 相对其它技术) 缺点: 声音质量一般 应用领域: voip 版税方式: Free 备注: ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一

视音频编解码技术发展现状和展望(四)

视音频编解码技术发展现状和展望(四) 4视音频编解码技术展望 由于数字视频编码的核心是对信号进行压缩,所以不断提高编码压缩效率仍是混合编码的主要发展目标。但是追求更高的压缩效率需要对传统的“变换+运动补偿+基于视觉的量化+熵编码”框架有所突破,给视频编码性能带来新的提升。 可伸缩的视频编码技术因为具有良好的网络适应性,所以围绕它的应用,尤其是网络环境下的应用,会越来越多。可以预见,在未来的网络视频监控中,可伸缩技术将是保证网络传输质量的一个重要实现技术。 而多视点编码方法的研究会集中在多视点视频的采集与校准,场景深度及几何信息获取(立体匹配),多视点视频编码,多视点视频通信,新视图渲染以及最终的交互或立体显示等6大关键上,这些技术的突破会为自由视点电视(FTV)、立体电视(3DTV)和沉浸感视频会议的应用提供技术支持。 作为SVC、MVC等各类视频编码的基础,混合框架的编码仍有很强的生命力。同时随着网络、通信、娱乐业对数字媒体的广泛需求,A VS、H.264这一代标准被普遍接受,相应的产品开发工作相当重要。包括编解码芯片、整机和系统。应用领域涉及数字电视、卫星电视、移动电视、手机电视、网络电视、时移电视机、新一代光盘存储媒体、安防监控、智能交通、会议电视、可视电话、数字摄像机等等。其中,安防监控领域是音视频编解码技术的主要应用领域之一。编解码技术在这个领域的应用,需要结合安防监控领域的特殊需求进行研究。只有在这个方向掌握有自主知识产权的核心技术,我国的安防监控产业才能健康持续的发展。 5 参考文献 1. ThomasWiegand, G.J.S., Senior Member, IEEE, Gisle Bj?ntegaard, and Ajay Luthra, Senior Member, IEEE, Overview of the H.264/AVC Video Coding Standard. IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, 2003. 13(7): p. 17. 2. 周秉锋, 郑.叶., JVT草案中的核心技术综述.软件学报, 2004. 15(1): p. 11. 3. Ostermann, J., Hybrid Coding: Where Can Future Ga ins Come from?” 2005. 4. Julien Reichel, H.S., Mathias Wien, Scalable Video Coding – Working Draft 2, JVT, Editor. 2005. 5. Dr Francesco Ziliani, J.-C.M., Scalable Video Coding In Digital Video Security. 2005. p. 19. 6. Wallace Kai-Hong Ho; Wai-Kong Cheuk; Lun, D.P.-K., Content-based scalable H.263 video coding for road traffic monitoring. IEEE Transactions on Multimedia, 2005. 7(4): p. 9. 7. Ser-Nam Lim; Davis, L.S.E., A., Scalable image-based multi-camera visual surveillance system, in AVSS.2003. 2003. 8. Nicolas, H., Scalable video compression scheme for tele-surveillance applications based on cast shadow detection and modelling, in Image Processing, 2005. ICIP 2005. IEEE International Conference on. 2005. 9. May, A.T., J.; Hobson, P.; Ziliani, F.; Reichel, J.;, Scalable video requirements for surveillance applications. Intelligent Distributed Surveilliance Systems, IEE, 2004: p. 4. 10. 陶钧, 王., 张军, 姜志宏, 三维小波视频编码的可伸缩性研究.小型微型计算机系统,

相关文档