多媒体知识点总结

时间：2024.5.4

第一章多媒体技术概论

1.媒体是信息表示、信息传递和信息存储的载体。媒体有两种含义

①信息的表示载体:文本、音频、图形、图像、动画、视频

②存储信息的实体:纸张、磁盘、光盘、半导体存储器

2.媒体的分类：感觉媒体、表示媒体、显示媒体、存书媒体、传输媒体。

3.多媒体定义：文本、声音、图形、图像和动画这些都是载递信息的媒体，它们的两个或多于两个的组合称为多媒体。

4. 多媒体技术是以数字技术为基础，把通信技术（电话、传真）视听技术（电台、电视）和计算机技术融于一体，能够对文字、图形、图像、声音、视频等多种媒体信息进行存储、传送和处理的综合性高新技术。

5.多媒体技术的研究内容：(1)多媒体数据压缩/解压缩技术(2) 数字化多媒体信息存储技术(3) 多媒体数据库技术(4) 超文本与超媒体技术(5) 多媒体网络与通信技术(6) 虚拟现实技术(7) 智能多媒体技术

6.多媒体技术应用：(1)、教育与培训 (2)、出版与图书 (3)、商业与咨询(4)、网络与通信(5)、军事与娱乐

课内习题：

1. 媒体中的表示媒体是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体，如文字、

音频、图像和视频等的数字化编码表示等。

2. 多媒体技术的主要特性有(1) 多样性 (2) 集成性 (3) 交互性

3. 请根据多媒体的特性判断以下哪些属于计算机多媒体的范畴？（1）交互式视频游戏（2）

有声图书

4. 一般认为，多媒体技术研究的兴起，从19xx年，美国Apple公司推出Macintosh系列机开始。

5. 多媒体技术未来发展的方向是：（1）高分辨率,提高显示质量;(2）高速度化，缩短处理时间；

（3）简单化，便于操作；（4）智能化，提高信息识别能力。

6. 下列哪些说法正确 ?

(1) 多媒体技术促进了通信、娱乐和计算机的融合。

(2) 多媒体技术可用来制作V-CD及影视音响、卡拉OK机。

(3) 多媒体技术极大地改善了人一机界面。

(4) 利用多媒体是计算机产业发展的必然趋势。

7. 下列哪些说法正确 ?(1) 媒体之间的关系也代表着信息； (3) 不同的媒体所表达信息的程度

不同。；(4)有格式的数据才能表达信息的含义。

8. 媒体有两种含义，即表示信息的载体和存储信息的实体

9. 多媒体技术是将计算机技术、视听技术和通信技术融合在一起的新技术

10. 多媒体技术交互式应用的高级阶段是虚拟现实

第二章多媒体音频技术

1.声波有三个重要的参数：振幅、周期和频率。

2.声音质量分为四级：电话、AM广播、FM广播、CD-DA（激光唱盘）。

3.声音的数字化:采样(对模拟音频信号的连续波形进行分割使之变成离散数字信号的方法，称为采样)、量化(对声波波形幅度的数字化表示称为量化。)和编码。

4.影响数字音频质量的技术参数：采样频率、量化位数和声道数。

5.数字音频文件的存储量

声音数字化计算公式

数据量＝采样频率(Hz)×量化位数(b)×声道数/8(字节/秒)

例子：例如，数字激光唱盘的标准采样频率为44.1 kHz，量化位数为16位，立体声，录制一分钟所需的存储量为

44.1k×16×2×60÷8 = 10335 KB

6.数字音频的文件格式：

(1). WAVE 文件:对实际声音进行采样的数据,没有采用压缩算法，产生的文件数据量大。

(2). MP3文件：有损压缩，11：1压缩率。

(3). WMA文件：保证在只有MP3文件一半大小的前提下，保持相同的音质。

(4). MIDI文件：将每个音符记录为一个数字，所有音频格式中最小的。

(5). RM文件：网络连接速率不同，客户端所获得的声音质量也不同。

(6).cda文件：取样频率为44.1kHz，16 位量化位数，跟WAV一样，但CD 存储采用了音轨的形式，又叫“红皮书”格式，记录的是波形流，是一种近似无损的格式。

7.数字音频压缩标准：常用的音频信号的压缩编码分为无损压缩和有损压缩。

典型的无损压缩方法有：哈夫曼编码、算术编码、行程编码、LZW等。

典型的有损压缩方法有：预测编码、变换编码、PCM、子带编码等。

8. 音频压缩技术标准：电话语音压缩200Hz~3.4kHz、调幅广播语音压缩50Hz~7kHz和高保真立体声音频压缩50Hz~20kHz 3种。

9. 声卡的主要功能：声卡是负责录音、播音和声音合成的多媒体板卡。

①录制、编辑和回放数字音频文件 ②控制和混合各声源的音量

③记录和回放音频时进行压缩和解压缩④文语转换与语音识别

⑤具有MIDI接口(乐器数字接口)和音乐合成

11. 什么是MIDI？

MIDI是Musical Instrument Digital Interface(乐器数字接口)的缩写，MIDI是用来连接电子乐器或者将MIDI设备与电脑连接成系统的一种通信协议。

MIDI是各种电子乐器之间以及它们与计算机之间用来互相沟通的一种语言，可以使不同厂家生产的电子音乐合成器互相发送和接收音乐信息，并且还能满足音乐创作和长时间播放音乐的需要。

12. MIDI合成方式：

（1）.调频合成法FM（Frequency Modulation）利用傅立叶级数原理将其分解为若干个不同频率的正弦波，然后生成MIDI音乐信息中指定乐器的各个正弦波分量

（2）.波形表合成法WT（Wave Table）MIDI合成器的ROM中预先存放各种实际乐器的声音样本。在进行音乐合成时，合成器以查表的方式调用这些样本，使其与MID音乐信息的要求完全相配，然后合成器将这些分段合成的样本送至扬声器播放。

13. MIDI音乐制作系统：音源、音序器、MIDI键盘。

14. MIDI的工作过程

多媒体知识点总结

15. 语音识别的基本原理

多媒体知识点总结

语音识别属于模式识别，分为训练和识别两个过程。在训练阶段，语音识别系统对人类的语言进行学习，学习结束把学习内容组成模式库存储起来；在识别阶段就可以对人们当前输入的语音在模式库中查找相应的词义或语义。

预处理部分包括语音信号采样、反混叠带通滤波（去除个体发音差异和设备、环境引起的噪声影响）、并涉及到语音识别基元的选取和端点检测问题。

特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等。训练在识别之前进行，通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库。

模式匹配部分是整个语音识别系统的核心，它是根据一定的准则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等)，计算输入特征与库存模式之间的相似度(如匹配距离、似然概率)，判断出输入语音的语意信息。

16. 语音识别系统的分类

(1).根据词汇量多少

小词汇量语音识别系统：几十词

中词汇量语音识别系统：几百词

大词汇量语音识别系统：几千-几万词

(2).根据对说话人依赖程度

特定人语音识别系统：专人

非特定人语音识别系统：所有人

限定人识别系统：一组人

(3). 根据对说话人说话方式

孤立词语音识别系统：每词后停顿

连接词语音识别系统：连音

连续语音识别系统：连音、变音

17.语音识别软件ViaVoice etc

中文听写

语音识别软件

多媒体知识点总结

语音命令

语音合成

中文语音识别系统

18.文本-:

文本-语音转换(Text-to-Speech)是指将文本信息转换成自然语音，最终目标是使计算机能够以清晰自然的声音和各种语言，甚至是各种表情来朗读任意的文本。也就是说，要使计算机具有象人一样、甚至比人更强的说话能力。因而它是一个十分复杂的问题，涉及到语言学、韵律学、语音学、自然语言处理、信号处理、人工智能等诸多的学科。

第三章图形与图像处理

1.光和颜色：光的本质是一种电磁波。红、橙、黄、绿、青、蓝、紫（色散）。不能再分解的色光叫做单色光。由单色光所混合的光称为“复色光”。太阳光及一般光源发出的光都是复色光。

2.光的内涵：色彩是人类视觉对可见光感知的结果，在可见光的七色光谱内不同波长的光会引起不同的颜色感觉。

光的波长与颜色对照红与青，绿与品红，蓝与黄互为补色。

3.颜色的三要素：色调(色相)，饱和度和亮度。

色调表示颜色的种类，如红、橙、黄、绿、青、蓝、紫等，取决于光的波长，是决定颜色的基本特征。

饱和度：表示颜色的纯度，或者说是颜色的深浅程度，即掺入白光的程度。

亮度：指光作用于人眼时所引起的明暗程度的感觉，它与被观察物体的发光强度有关，反光能力大的看起来就亮一些，反之就暗一些

4.色彩模式：（RGB CMYK 对比优缺点？特点？混合颜色？）

RGB:RGB分别代表红(Red)、绿(Green)、蓝(Blue)三种基本颜色，每种颜色的亮度大小用数字0-255表示，共有1670万种颜色。

多媒体知识点总结

RGB相加模式。 CMYK：CMY模式由青(Cyan)、品红(Magenta)、黄(Yellow)

多媒体知识点总结

三种基本颜色按一定比例合成，每种颜

色用百分数0-100%来表示。

最大表示：28×28×28×28 = 232 = 4294967296 (4294M)

CMY模式和RGB模式不同，其色彩的产生不是直接来自于光线，而是由照射在颜料上反射回来的未

多媒体知识点总结

。善的黑色或灰色。因此在印刷时必须加上一种真正的黑色(Black)，这样CMY模式又称为CMYK模式。

在白光照射下，青色颜料能吸收红色而反射青色，黄色颜料吸收蓝色而反射黄色，品红颜料吸收绿色而反射品红。

White – Red = (R + G + B) – R = G + B = Cyan(C，青)

White – Green = (R + G + B) – G= R + B = Magenta(M,品红)

White – Blue = (R + G + B) – B = R + G = Yellow(Y,黃)

混合青、品红、黃三种颜料会得到黑色。

C + M + Y = W – R – G – B = 0(Black, K, 黑色)

RGB与CMYK这两大色彩模式的区别：

1. RGB色彩模式是发光的，存在于屏幕等显示设备中。不存在于印刷品中。CMYK色彩模式是反光的，需要外界辅助光源才能被感知，它是印刷品唯一的色彩模式。

2. 色彩数量上RGB色域的颜色数比CMYK多出许多。但两者各有部分色彩是互相独立(即不可转换)的。

5.HSB模式：HSB模式由色调(Hue)

多媒体知识点总结

、饱合度(Saturation)、亮度(Brightness) 来生成颜色。用HSB模式描述颜色更加自然，比较符合人的主观感受，适合绘画艺术，但使用时不方便，显示时要转换成RGB模式。

6.图形与图像，比较说明？

图形：图形又称矢量图或几何图，是用数学模型表示图形的形状、位置、颜色等属性和参数。例如，

圆是由圆心坐标、半径和色彩组成的。

矢量图形的精度高、灵活性大，并且用它们设计出来的作品可以任意放大、缩小而不会变形失真。它不会像一些位图图像，在进行高倍放大后图像会不可避免的方块化。

优点：图形文件占用空间较少。

缺点：图形复杂时，耗时相对较长，尤其在生成三维图形时，除绘出线条外，还要计算光照、着色等效果。

图像：图像又称点阵图或位图，是空间和亮度上离散化的图像，它通过描述画面中每一像素的颜色或亮度来表示该图像，非常适合表现如明暗、浓淡、层次和色彩变化等包含大量细节的图片。优点：色彩和色调变化丰富，景物逼真。

多媒体知识点总结

图形的颜色作为绘制图元的参数在指令中给出，所以图形的颜色数目与文件的大小无关；图像中每个像素所占据的二进制位数与图像的颜色数目有关，颜色数目越多，占据的二进制位数也就越多，图像的文件数据量也会随之迅速增大。

缩放效果：

图形在进行缩放、旋转等操作后不会产生失真；

图像有可能出现失真现象，特别是放大若干倍后可能会出现严重的颗粒状，缩小后会吃掉部分像素点。

适用场合：

图形适应于表现变化的曲线、简单的图案和运算的结果等

图像的表现力较强，层次和色彩较丰富，适应于表现自然的、细节的景物。

7.影响图像数字化质量的主要参数有分辨率、颜色深度等，其中，分辨率分为显示分辨率、图像分辨率和像素分辨率。

8.图像文件的大小：指存储整幅图像所需的字节数，计算公式为：

图像文件的字节数=图像分辨率*颜色深度/8

例如，一幅640*480的真彩色图像，未经压缩的原始数据量为：

640*480*24/8=921600B=900KB

9.图像的文件格式:

BMP(Bitmap)文件是一种与设备无关的图像文件，是Windows系统推荐使用的位映射存储形式，可达32位全彩色模式，BMP文件通常都不采用压缩格式。

GIF(Graphics Interchange Format) CompuServe公司开发, 是压缩图像交换格式文件，适合于动画制作、网页制作等领域，图像文件短小，下载速度快，但不能存储超过256色的图像，可以在web浏览器中播放，有小动画的效果。GIF采用两种排列顺序存储图像，即顺序排列和交叉排列，交叉排列使GIF具有”渐显”特色

JPEG(Joint Photographic Experts Group)是采用JPEG压缩标准储存图像的文件格式，压缩率较高，用于灰度和彩色图像的存储和网络传送

TIFF(Tag Image File Format) Aldus公司开发，用于精确描述图像的场合,是一种通用的位映射图像文件格式，支持从单色的二值图像到32位真彩色的所有图像；适用于多种操作平台和多种机型，支持多种压缩方法。TIFF格式的优点主要是适用于各种应用程序，与计算机体系结构、操作系统和图形处理硬件无关。

10.图像数据的压缩机理

空间冗余：指同一幅图象中规则的物体和规则的背景都具有的很强的相关性；例如，在静态图像中有一块表面颜色均匀的区域，在此区域中所有点的光强和色彩以及饱和度都是相同的，因此数据有很大的空间冗余。

时间冗余：运动图像一般为位于一时间轴区间的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，所以后一帧的数据与前一帧的数据有许多共同的地方，这种共同性是由于相邻帧记录了相邻时刻的同一场景画面，所以称为时间冗余。结构冗余：在有些图像的纹理区，图像的像素值存在着明显的分布模式。例如，方格状地板图案等，我们称此为结构冗余。已知分布模式，可以通过某一过程生成图像。

视觉冗余：人类的视觉敏感度一般小于图像的表现力，图像的微小色彩变化、亮度层次的细腻变化，以及轮廓的细微差别不易察觉，产生了视觉冗余

知识冗余有些图像的理解与某些知识有相当大的相关性。例如，人脸的图像有固定的结构，嘴的上方有鼻子，鼻子的上方是眼睛，鼻子位于正脸图像的中线上。这类规律性的结构可由先验知识和背景知识得到，称为知识冗余。知识冗余是模型编码主要利用的特性

11.无损压缩是指在压缩时不丢失数据，解压缩后的还原图像与原始图像完全一致，是一种可逆压缩。也叫做无失真编码或冗余压缩或熵编码。常见的图像无损压缩编码有哈夫曼编码、行程编码、算术编码，LZW编码。

无失真压缩法去掉或减少数据中的冗余，恢复时再重新插到数据中，因此是可逆过程。根据目前的技术水平，无损压缩算法一般可以把普通文件的数据压缩到原来的1/2－1/4

有损压缩也叫有失真编码，是指压缩时舍弃部分数据，解压后的还原图像与原始图像存在一定的误差，但视觉效果可以接受，压缩比较高。图像有损压缩编码有预测编码、变换编码、矢量量化编码等。图像包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息，丢掉一些数据而不至于对声音或者图像所表达的意思产生误解，但可大大提高压缩比。

12.常用的编码方法

一、统计编码

统计编码也称为信息熵编码，它是根据信源符号出现概率的分布特性而进行的压缩编码，属于无损压缩编码。统计编码包括哈夫曼编码、行程编码、算术编码等。

设信息源X的符号集为xi（i=1,2?.n），设xi出现的概率为p(xi)，则信息源X的熵定义为： H(X)在信息论中称为信源X的熵 (Entropy)，单位为bit/符号，-log2P(xi)表示包含在xi中的信息量，因此熵就是信源X发出任意一个随机变量的平均信息量，是进行无失真压缩编码的理论极限。如果我们设计的编码方法的码字的平均比特率接近熵，那么说明这个编码方法是最佳的。例如：信源X中有16个随机事件，即n=16。每个随机事件的概率都相等，即用信息熵H来评价压缩编码

用熵衡量压缩方法的效果

如果信号序列经压缩后，熵H不变，则表明信息量没有下降，这种压缩方法是无损的编码方法，所以无损编码又称为熵(不变)编码。

用熵衡量压缩是否为最佳码

如以N表示编码器输出码字的平均码长，则当：

N>>H(X)时，有冗余，不是最佳，有进一步压缩的潜力；

而N<H(X)不可能；

当N稍大于H(X)最佳码。熵值是平均码长N的下限。

13.哈夫曼编码（画图，写步骤，码长，码字，计算平均码长）

思想：由于图像中表示颜色的数据出现的概率不同，对于出现频率高的赋予较短字长的码，对出现频率小的赋予较长字长的码，从而减少总的代码量，但不减少总的信息量,实现数据压缩。

方法：

（1）把信源符号（共N个）按其出现概率的值由大到小顺序排列；

（2）将出现概率最小的两个符号的概率相加，合成一个概率，这时概率个数减为n-1个，将n-1个概率重新按概率大小顺序排列；

（3）重复第2步做法，直到概率为1；

（4）用线将符号连接起来，逐步从后向前进行编码，每个节点有两个分支，对概率大的赋1，概率小的赋0，(也可以对概率大的赋0，概率小的赋1)，经过几个节点后到达端点；

（5）将一路遇到的0或1按顺序排列起来，就是这个端点所对应的信源符号的码字。

在理解上述步骤的基础上，学会给已知的信源编码。

平均码长N为：

平均码长N为： N?

8P?i?n?

28i?2.73bit/码字

信息熵H为： i?1H?X???P?xi??log?i?1P?xi??2.61bit/码字

可见，Huffman编码后的冗余仅为：

2.73 - 2.61 = 0.12 bit / 码字。

14.算术编码（画图，写步骤）

Huffman 编码的局限性： Huffman 编码使用整数个二进制位对符号进行编码，这种方法在许多情况下无法得到最优的压缩效果。假设某个字符的出现概率为 80%，该字符事实上只需要 -log2(0.8) = 0.322 位编码，但 Huffman 编码一定会为其分配一位 0 或一位 1 的编码。可以想象，整个信息的 80% 在压缩后都几乎相当于理想长度的 3 倍左右。

基本思想：算术编码不是将单个信源符号映射成一个码字，而是把整个信源表示为实数线上的0到1之间的一个区间，其长度等于该序列的概率，再在该区间内选择一个代表性的小数，转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多，所得到的区间就越小，当区间变小时，就需要更多的数位来表示这个区间。

采用算术编码每个符号的平均编码长度可以为小数。

例：假设信源符号为{A, B, C, D}，这些符号的概率分别为{ 0.1, 0.4, 0.2, 0.3 }，根据这些概率可把间隔[0, 1]分成4个子间隔：[0, 0.1], [0.1, 0.5], [0.5, 0.7], [0.7, 1]，其中[x,y]表示半开放间隔，即包含x不包含y，如下表所示。

如果消息序列的输入为：CADACDB，其编码过程如下：

首先输入的符号是C，找到它的编码范围是[0.5, 0.7]；

多媒体知识点总结

由于消息中第2个符号A的编码范围是[0, 0.1]，因此它的间隔就取[0.5, 0.7]的第一个1/10作为新间隔[0.5, 0.52]；

多媒体知识点总结

编码第4个符号A时，取新间隔为[0.514, 0.5146]，?。

消息的编码输出可以是最后一个间隔中的任意数，整个编码过程如图4-3所示。最后在

[0.5143876,0.51442]中选择一个数作为编码输出值：0.5143876。

解码时，解码器由编码输出值：0.5143876，可马上解得一个字符为C，然后依次得到唯一解A,D,A,C,D,B。

15.预测编码意义：预测编码( Prediction Coding )是统计冗余数据压缩理论的三个重要分支之一，用预测编码减少数据时间和空间的相关性。

预测编码的基本思想

建立一个数学模型利用以往的样本数据对新样本值进行预测将预测值与实际值相减对其差值进行编码

这时差值很少，可以减少编码码位。

预测编码主要是减少数据在时间和空间上的相关性。它是利用原始的离散信号之间存在一定相关性的特点，建立一个预测模型，然后根据这个模型及以往的样本值，预测下一个信号的值，然后由实际值和预测值计算出预测误差，再对这个误差编码后发送到接收端，接收端通过预测值加差值信号来重建原信号。如果模型选取得足够好且样本序列在时间上相关性较强，误差信号就会很小，从而可以用较少的码数进行编码，以达到数据压缩的目的。常用的预测编码算法主要有DPCM和ADPCM。

16.变换编码的意义：变换编码是进行一种函数变换，不是直接对空域图像信号编码，而是首先将空域图像信号映射变换到另一个正交矢量空间(变换域、或频域)，产生一批变换系数，然后对这些变换系数进行编码处理。

图像经过正交变换后能够实现图像数据压缩的本质在于：经过多维坐标系中的适当坐标旋转和变换，能够把散布在各个坐标轴上的原始图像数据，在新的适当的坐标系中集中到少数坐标轴上，因而有可能用较少的编码字节数来表示一幅图像，实现图像的压缩编码

变换编码的基本方法是将数字图像分成一定大小的子图像块，用某种正交变换对子像块进行变换，得到变换域中的系数矩阵，然后选用其中的主要系数进行量化编码

17.基于DCT编码的关键步骤

1. 将源图像分成几个颜色平面（分量图像）

2. 分成8×8数据块进行正向离散余弦变换(FDCT)。

3. 量化(quantization)。

4. Z字形排列量化结果(zigzag scan)。

5. 使用差分脉冲编码调制(differential pulse code modulation，DPCM)对直流系数(DC)进行编码。 5. 使用行程长度编码(run-length encoding，RLE)对交流系数(AC)进行编码。

6. 熵编码(entropy coding)。

18.JPEG2000的飞跃表现在采用以离散小波变换算法为主的多解析编码方式替代了以DCT为主的区块编码方式，大大提高了压缩性能

19.显示卡的基本工作过程

1 CPU将数据通过总线送到显示芯片进行处理

2 显示芯片将数据处理的结果送到显示内存

3 显示内存将数据送到RAM DAC(数模转换器)中进行转换，将数字信号转化为模拟信号 RAM DAC将模拟信号通过VGA接口送到显示器输出

多媒体知识点总结

扫描仪是由光电转换部件(CCD)、光源及聚焦透镜等组成。

当光线照射在图片上，产生反射光或透射光，通过CCD将光线亮度以及色彩信号转换成模拟电信号，再经A/D转换成数字图像。

光22.OCR文字识别

OCR(Optical Character Recognition)：光学字符识别

文字识别过程：文字出版物→扫描仪→文字图像→OCR软件→识别为文本格式→文字处理软件排版

扫描仪捆绑销售软件：

①驱动程序：Windows 98/2000/XP

②字符识别软件：OCR软件

23.photoshop

1.什么是动画

动画由多幅连续画面组成，当画面快速、连续地播放时，由于人类眼睛存在 “视觉滞留效应” 而产生动感。

2.全动画 ——为追求画面完美和动作流畅，按照24帧／s制作动画

半动画 ——又名“有限动画”，为追求经济效益，6帧／s的动画

3．动画分类：

按系统的功能强弱分为5级：

第一等级：只用于交互产生、着色、存储、检索和修改图像，由于不考虑时间因素,相当于一个图像编辑器

第二等级：实现中间帧的计算，并能使物体沿着某条轨迹运动，可代替人工制作中间帧。第三等级：可以提供一些形体的操作(平移、旋转等)，同时也包括虚拟摄像机的操作(镜头推移、倾斜变化等)

第四等级：提供了定义角色的方法，这些角色具有自己的运动特色。

第五等级：智能动画系统，系统可以自学习。

前四个等级的动画系统已有许多商品化的产品问世，而智能动画系统正在研究中。现在又出现了一些新的研究方向，像人工生命、虚拟生物等。

4.关键帧动画是通过一组关键帧或关键参数值得到中间的动画帧序列。

? 二维形状插值——插值关键帧本身

? 关键参数插值——插值物体模型的关键参数值

第五章多媒体视频技术

1.数字视频的特点

视频信号数字化后的主要优点有：

①便于创造性的编辑与合成，交互性强

②可不失真地进行多次复制，抗干扰能力强，再现性好

③在网络环境下可长距离传输而不损耗，容易实现资源共享

缺陷：处理速度慢，数据量大

3. 电视制式

电视视频信号是一种模拟信号，由视频模拟数据和视频同步数据构成，用于接收端正确的显示图像。信号的细节取决于应用的视频标准或者“制式”。

电视制式是指电视显示的标准。目前各国的电视制式不尽相同，不同的制式对视频信号的解码方式、色彩处理方式以及屏幕扫描频率的要求不同。

常见的电视制式有NTSC (美国电视标准委员会)、PAL(逐行倒相)以及SECAM(顺序传送与存储彩色电视系统)。在PC领域，由于使用的制式不同，存在不兼容的情况。

4．NTSC 制式

NTSC（National Television Systems Committee)制式是美国19xx年制定的彩色电视标准，适用于美国、加拿大、日本、韩国台湾等地。NTSC制式规定：

①525行/帧，30帧/秒

②隔行扫描：2场/帧，262.5行/场

③宽高比：4:3(电影为3:2)

④颜色模型：YIQ

NTSC制式在信号传输无失真的情况下具有较高的彩色图像质量，清晰度较高，无明显的闪烁现象。

4. PAL 制式

PAL（Phase-Alternative Line)制式是德国19xx年制定的彩色电视标准，中国、香港、新加坡、朝鲜和多数欧洲国家使用。

PAL制式规定：

①625行/帧，25帧/秒第四章计算机动画技术

②隔行扫描：2场/帧，312.5行/场

③宽高比：4:3

④颜色模型：YUV

5. HDTV

HDTV(High Definition TV)高清晰度电视)，①逐行扫描，1000行/场 ②宽高比：16:9，多声道环绕声音 ③传送的信号全部数字化

根据场扫描方式的不同，目前HDTV可分为三种模式，分别是：

720p（1280×720，“p”代表逐行扫描）

1080i（1920×1080，“i”隔行扫描）

1080p（1920×1080，“p”代表逐行扫描）

其中720P和1080i格式的HDTV在网络上最为常见

6. 视频信号的数字化是指将模拟视频信号经过模/数转换和彩色空间变换转化为数字信号的过程，其中涉及：

模拟扫描信号采样量化数字编码信号主要为两个方面：空间位置的离散和数字化；亮度电平的离散和数字化

7.视频文件的格式

AVI（Audio Video Interleave）是一种音频视频交插编码的数字视频文件格式。19xx年初微软公司推出了AVI技术及其应用软件VFW（Video for Windows）。

特点：

①允许音频和视频交错在一起同步播放。

②支持256色，和RLE压缩。

③不限定压缩标准，不具备兼容性，不同压缩算法生成的AVI文件，需要相应的解压缩算法才能播放。

多用于多媒体光盘上。

MOV(Movie digital video)文件是Apple公司在其Macintosh机推出的视频文件格式，其相应的视频应用软件QuickTime与VFW类似。

QuickTime for Macintosh

QuickTime for Windows

MOV文件格式的压缩算法

Video编码支持16位图像深度

的帧内压缩和帧间压缩。

MPG 文件MPEG/MPG/DAT格式

? MPEG算法用于压缩全运动视频图像，就可以生成全屏幕活动视频标准文件：MPG文件。MPG格式文件在1024*786的分辩率下可以用每秒25帧（或30帧）的速率同步播放全运动视频图像和CD音乐伴音，并且其文件大小仅为AVI文件的六分之一。

DAT文件也是基于MPEG压缩算法的一种文件格式,它是Video CD和卡拉OK CD数据文件的扩展名。

RM格式即Real Media的缩写。RM采用一种“边传边播”的方法，即先从服务器上下载一部分视频文件，形成视频流缓冲区后实时播放，同时继续下载，为接下来的播放做好准备。这种“边传边播”的方法避免了用户必须等待整个文件从Internet上全部下载完毕才能观看的缺点。RealMedia可以根据网络数据传输速率的不同制定了不同的压缩比率，从而实现在低速率的广域网上进行影像数据的实时传送和实时播放。

RMVB格式是一种由RM视频格式升级延伸出的新视频格式，它的先进之处在于RMVB视频格式打破了原先RM格式那种平均压缩采样的方式，在保证平均压缩比的基础上合理利用比特率资源，

就是说静止和动作场面少的画面场景采用较低的编码速率，这样可以留出更多的带宽空间，而这些带宽会在出现快速运动的画面场景时被利用。这样在保证了静止画面质量的前提下，大幅地提高了运动图像的画面质量，从而图像质量和文件大小之间就达到了微妙的平衡。一部大小为700MB左右的DVD影片，如果将其转录成同样视听品质的RMVB格式，其个头最多也就400MB左右。不仅如此，这种视频格式还具有内置字幕和无需外挂插件支持等独特优点。要想播放这种视频格式，可以使用RealOne Player2.0或RealPlayer8.0加RealVideo9.0以上版本的解码器形式进行播放。

ASF是Advanced Streaming format 的缩写，即高级流格式。它使用了 MPEG4 的压缩算法，所以压缩率和图像的质量都很不错。ASF的主要优点包括：本地或网络回放、可扩充的媒体类型、部件下载、以及扩展性等。ASF应用的主要部件是NetShow服务器和NetShow播放器。有独立的编码器将媒体信息编译成ASF流，然后发送到NetShow服务器，再由NetShow服务器将ASF流发送给网络上的所有NetShow播放器，从而实现单路广播或多路广播。

7. 视频压缩的基本原理

压缩的前提：

1,每幅图像作为静态图像的压缩.

2, 相邻帧(图像)之间存在冗余.（时间冗余，时间相关性）

帧间编码(相邻帧编码)的技术基础为预测技术，基于预测技术的帧间编码方法有： ? 条件像素补充方法：

对于一幅视频图像，只传送帧间各对应像素的亮度值超过阈值的部分像素，其它则不传送，使用上一帧相应像素值来代替，可以得到较好的压缩比。

? 运动补偿技术：

跟踪画面的运动情况进行预测，传送运动的图像及其运动方式（运动矢量的计算）。

8. MPEG视频压缩标准

MPEG(Motion Picture Experts Group)是运动图像专家组的英文缩写，是制定、修改和发展多媒体视频标准的全球性组织，活动始于19xx年，其任务是给运动图象及其相关声音制定一种通用的数字编码标准。针对不同的应用目的MPEG专家组制定了MPEG-1、MPEG-2、MPEG-4和MPEG-7等压缩标准。

9.MPEG-1关键技术

1. 基于DCT的压缩技术，减少空间域冗余度，MPEG中，使用帧内DCT,同时使用帧间DCT,进一步压缩数据量

2. 基于16×16子块的运动补偿，减少帧序列的时域的冗余度

保证图像质量基本不降低而又能够获得高的压缩比，MPEG以内码帧I，预测帧P和插补帧B三种类型的图像格式表示

9. 帧内图像I的压缩编码算法-与JPEG类似

帧内图像I不参照任何过去的或者将来的其他图像帧，压缩编码采用类似JPEG压缩算法，如果原始图像是用RGB空间表示的，则首先把它转换成YCrCb空间表示的图像。

每个图像平面分成8×8的图块，对每个图块进行离散余弦变换DCT(discrete Cosine Transform)。DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序，然后再使用无损压缩技术进行编码。

DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM(Differential Pulse Code Modulation)，交流分量系数用行程长度编码RLE(run-length encoding)，然后再用赫夫曼(Huffman)编码或者用算术编码

10.I帧(intra pictures内码帧)，

是对整幅图像采用JPEG编码的图像，是一个独立的帧，其信息由自身画面决定，不需要参照其他画面而产生，是P图和B图的参考图。

P帧(predicted pictures预测帧 )，

通过对之前的I或P帧进行预测，并对预测误差做有条件的存贮和传输

B帧（bidirectional prediction双向帧或插补帧），

根据前后I帧或者P帧的信息进行插值编码获得

10.MPEG-2 标准

MPEG-2的主要内容包括：系统部分主要涉及多路音频、视频和数据的复用和同步；视频部分引入了档次和等级的视频体系结构，支持不同分辨率格式之间的兼容，具有较强的分级编码的能力；音频部分提供多语言声道和多通道音频编码系统，达到了5.1声道之多。

MPEG-2主要应用：数字电视、数字视频光盘、视频会议等，典型应用是DVD、HDTV。 MPEG-4是19xx年通过的用于低比特率(≤64kbps)的视频压缩编码标准，同时强调了视频、音频对象的交互性和灵活性。MPEG-4的主要内容包括：

系统部分：对视音频对象进行场景描述，对视音频流进行管理，如复用、同步等，对灵活性的支持；

视频部分：提供了对多种视频格式和码流的支持，还支持基于内容的视频功能，按视频内容独立编码；

音频部分：支持对自然声和合成声音的编码，对音频对象可以独立编码；

多媒体综合框架：解决网络、广播环境和磁盘中的多媒体应用操作问题。

MPEG－7：多媒体内容描述接口标准，正处于研究阶段。目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关系，以便更快更有效地检索信息

随着多媒体时代的到来而产生一个重大问题：那就是如何在多如繁星的影音资料中找到用户需要的资料。MPEG-7标准重点在于影音内容的描述和定义，以明确的结构和语法来定义影音资料的内容。通过MPEG -7格式定义的信息，使用者可以有效率地搜寻、过滤和定义想要的影音资料。

多媒体框架标准（简称MPEG-21）就是这样一个支持通过异构终端和网络，使用户透明的、广泛的、交互的使用多媒体信息资源的综合性的技术标准。

更多相关推荐：

多媒体工作总结: 多媒体工作总结随着经济社会的发展，科学技术的进步，多媒体已做为一种辅助教学技术进入中小学校，进入教室课堂。作为农村学校，多媒体教学在课堂中的应用，不仅能拓展学生的视野，更能激发学生的学习积极性。作为一名农村学校…
多媒体教学总结: 多媒体教学总结多媒体教学可以在课堂里更充分地创设学习情境，节约教学时间，充分展示知识的建构过程，实现了数学知识在具体与抽象、静态与动态、过程与结果、有限与无限等各方面的互相转换。多媒体教学能有效突破教学难点，突…
多媒体技术总结: 多媒体技术及应用课程学习总结多媒体技术是现在在教育教学过程当中最常使用的一种教学方法在中职学校计算机专业教育过程中通过PPT课件制作可以将文本图形图像音频视频等多媒体信息经过计算机相应软件进行获取操作编辑存储等...
多媒体总结(汇总): 2媒体的分类感觉媒体指直接作用于人的感觉器官使人产生直接感觉的媒体表示媒体指传送感觉媒体的中介媒体即用于数据交换的编码显示媒体指把媒体信息显示出来通常分为两种一种是输入类显示媒体用来获取信息另一种是输出类显示媒...
多媒体工作总结: 旅游学院多媒体20xx—20xx学年度上期工作总结姓名：孙川20xx年x月x日岁月如白驹过隙，夏末到深冬，仿若目转流年。银杏也从碧绿到金黄，再到化为尘土，这一期的宣传部多媒体团队的工作也接近尾声，作为团队的…
小学多媒体室工作总结: 汶南实验学校20xx-xx年下学期多媒体教室管理工作总结由于我校多媒体教室仅建成一年多，对多媒体教室的管理没有经验，因此，多媒体教室的管理工作千头万绪，工作起来比较吃力，现将本期来的管理工作总结如下：一．制定制…
多媒体总结: 多媒体学习培训心得总结这次有幸参加成都市教师培训短短的培训中我学到了许多多媒体操作电子白板的功能可谓受益匪浅学习的过程就是一个不断遇到问题和不断解决问题的过程随着科学技术的发展特别是计算机技术的推广和普及多媒体...

多媒体复习总结: 1什么是媒体媒体是信息表示和传输的载体2媒体分类感觉媒体表示媒体表现媒体存储媒体传输媒体3多媒体技术的定义和特点多媒体技术就是计算机交互式综合处理声文图信息的技术具有集成性实时性和交互性4多媒体标准微软提出MP...

多媒体应用实训报告: 多媒体应用实训报告姓名专业班级学号学院指导教师刘珊计算机应用081080423132陕西能源职业技术学院赵生智老师20xx年12月1日24一实训的目的及要求一目的1使学生进一步巩固多媒体技术课程中所学到的知识掌...
多媒体处理实训总结: 多媒体处理实训总结实训指导老师20xx年12月25日一目的方面通过两周的实训学生掌握了cooleditproAdobePremiere进行视频编辑使用Photoshop进行静态图像的处理使用cool3d进行文本...
多媒体实训室工作总结: 多媒体实训室工作总结自20xx年开始建设计算机系多媒体实训室起在系主任和教研室主任的领导下我们多媒体教研室很快从零发展到具有4个实训室总价值数十万既能提供教学服务还能提供校企合作更具有产学研多功能价值一实训室设...

多媒体使用总结: 多媒体使用总结本学期我教授的20xx级基础4班在多媒体302教室上课以出版社配套的多媒体课件为主同时每单元课件还填加了部分重点单词讲解和语法训练内容现将使用情况总结如下一增强学生学习兴趣通过课件把文字图象模型展...

热门关注

多媒体管理员工作总结 Microsoft Word 文档

多媒体教室管理工作总结

多媒体专业xx年级实训总结