文档视界 最新最全的文档下载
当前位置:文档视界 › 计算机系统结构 第四章(习题解答)

计算机系统结构 第四章(习题解答)

计算机系统结构 第四章(习题解答)
计算机系统结构 第四章(习题解答)

1. 假设一条指令的执行过程分为“取指令”、“分析”和“执行”三段,每一

段的时间分别是△t 、2△t 和3△t 。在下列各种情况下,分别写出连续执行n 条指令所需要的时间表达式。 ⑴ 顺序执行方式。

⑵ 仅“取指令”和“执行”重叠。 ⑶ “取指令”、“分析”和“执行”重叠。 答:

⑴ 顺序执行方式

1

2 ......

1 2 1

2

T =∑=++n

1

i i i i )t t t (执行分析取址=n(△t +2△t +3△t)=6n △t

⑵ 仅“取指令”和“执行”重叠

1

2 ......

1 2

1

2

T =6△t +∑=+1

-n 1

i i i )t t (执行分析=6△t +(n-1)(2△t +3△t)=(5n +1)△t

⑶ “取指令”、“分析”和“执行”重叠

1

2 3

4 ......

1 2 3 4

1

2

3

4

△t

2△t

3△t

△t

2△t

3△t

△t

2△t

3△t

T =6△t +∑=1

-n 1i i )t (执行=6△t +(n-1)(3△t)=(3n +3)△t

2. 一条线性流水线有4个功能段组成,每个功能段的延迟时间都相等,都为

△t 。开始5个任务,每间隔一个△t 向流水线输入一个任务,然后停顿2个△t ,如此重复。求流水线的实际吞吐率、加速比和效率。 答:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

...

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5

6 7 8 9 10 11 12 13 14 15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

我们可以看出,在(7n+1)Δt 的时间内,可以输出5n 个结果,如果指令的序列足够长(n →∞),并且指令间不存在相关,那么,吞吐率可以认为满足:

)n (t

75

t )n /17(5t )1n 7(n 5TP ∞→?=?+=?+=

加速比为:

)n (7

20

n /17201n 7n 20t )1n 7(t 4n 5S ∞→=+=+=?+??=

从上面的时空图很容易看出,效率为:

)n (7

5

n /1751n 7n 5t )1n 7(4t 4n 5E ∞→=+=+=?+???=

3. 用一条5个功能段的浮点加法器流水线计算∑==10

1i i A F 。每个功能段的延迟

时间均相等,流水线的输出端与输入端之间有直接数据通路,而且设置有足够的缓冲寄存器。要求用尽可能短的时间完成计算,画出流水线时空图,计算流水线的实际吞吐率、加速比和效率。 答:

首先需要考虑的是“10个数的和最少需要做几次加法”,我们可以发现,加

法的次数是不能减少的:9次;于是我们要尽可能快的完成任务,就只有考虑如何让流水线尽可能充满,这需要消除前后指令之间的相关。由于加法满足交换律和结合律,我们可以调整运算次序如以下的指令序列,我们把中间结果寄存器称为R ,源操作数寄存器称为A ,最后结果寄存器称为F ,并假设源操作数已经在寄存器中,则指令如下:

I1: R1←A1+A2 I2: R2←A3+A4 I3: R3←A5+A6 I4: R4←A7+A8 I5: R5←A9+A10 I6: R6←R1+R2 I7: R7←R3+R4 I8: R8←R5+R6 I9:

F ←R7+R8

这并不是唯一可能的计算方法。假设功能段的延迟为Δt 。时空图如下(图中的数字是指令号):

1 2 3 4 5 6 7

8

9

1 2 3 4 5 6 7 8

9

1 2 3 4 5 6 7 8

9

1 2 3 4 5 6 7 8

9

1 2 3 4 5 6 7

8

9

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21

整个计算过程需要21Δt ,所以吞吐率为:

t

43

.0t 73t 219TP ?≈?=?=

加速比为:

1429.27

15

t 21t 59S ≈=???=

效率为:

43.07

3

t 215t 59E ≈=????=

4. 一条线性静态多功能流水线由6个功能段组成,加法操作使用其中的1、2、

3、6功能段,乘法操作使用其中的1、

4、

5、6功能段,每个功能段的延迟时间均相等。流水线的输出端与输入端之间有直接数据通路,而且设置有足够的缓冲寄存器。用这条流水线计算向量点积i 6

0i i b a B A ?=?∑=,画出流

水线时空图,计算流水线的实际吞吐率、加速比和效率。 答:

我们安排运算次序如下:把中间结果寄存器称为R ,源操作数寄存器称为A 、B ,最后结果寄存器称为F ,并假设源操作数已经在寄存器中,则指令如下:

I1: R0←A0*B0 I8: R7←R0+R1 I2: R1←A1*B1 I9:

R8←R2+R3

I3: R2←A2*B2 I10: R9←R4+R5 I4: R3←A3*B3 I11: R10←R6+R7 I5: R4←A4*B4 I12: R11←R8+R9 I6: R5←A5*B5 I13: F ←R10+R11 I7: R6←A6*B6

假设功能段的延迟为Δt 。时空图如下(图中的数字是指令号):

1 2 3 4 5 6 7

8 9 10 11 12 13 1 2 3 4 5 6 7

1 2 3 4 5 6 7

8 9 10 11 12

13

8 9 10 11 12

13

1 2 3 4 5 6 7

8 9 10 11 12

13

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

整个计算过程需要24Δt ,所以吞吐率为:

t

54

.0t 2413TP ?≈

?=

加速比为:

17.26

13

t 24t 46t 47S ≈=???+??=

效率为:

36.036

13

t 246t 134E ≈=????=

5. 一条有三个功能段的流水线如下图。每个功能段的延迟时间均相等,都为

△t 。其中功能段S 2的输出要返回到它自己的输入端循环一次。

⑴ 如果每间隔一个△t 向流水线的输入端连续输入新任务,问这条流水线会发

生什么情况

⑵ 求这条流水线能够正常工作的最大吞吐率、加速比和效率。 ⑶ 有什么办法能够提高这条流水线的吞吐率,画出新的流水线。 答: ⑴

如果每间隔一个△t 向流水线的输入端连续输入新任务,流水线S2功能段存在资源冲突。见下表:

每间隔两个△t 向流水线的输入端连续输入新任务(如见下表所示)可获得最佳性能。

△t △t △t

我们可以看出:在(2n+2)Δt 的时间内,可以输出n 个结果,如果指令的序列足够长(n →∞),并且指令间不存在相关,那么,吞吐率为:

)n (t 21

t )n /22(1t )2n 2(n TP ∞→?=?+=?+=

加速比为:

)n (2n

/112

1n n 2t )2n 2(t 4n S ∞→=+=+=?+??=

效率为:

)n (3

2

n /3323n 3n 2t )2n 2(3t 4n E ∞→=+=+=?+???=

如要提高这条流水线的吞吐率,可采用:将功能段S2重复设置一次,见下图:

6. 一条有4个功能段的非线性流水线,每个功能段的延迟时间都相等,都为

20ns ,它的预约表如下:

⑴ 写出流水线的禁止向量和初始冲突向量。 ⑵ 画出调度流水线的状态图。

△t △t △t △t

⑶求流水线的最小启动循环和最小平均启动距离。

⑷求平均启动距离最小的恒定循环。

⑸求流水线的最大吞吐率。

⑹按照最小启动循环连续输入10个任务,求流水线的实际吞吐率。

⑺画出该流水线各功能段之间的连接图。

答:

禁止向量F=(6,4,2);冲突向量C=(101010)。

∴流水线的最小启动循环为:(1,7)或(3,5)或(5,3),最小平均启动距

离为4。 ⑷

由上表可知:平均启动距离最小的恒定循环为(5)。 ⑸

采用最小平均启动距离为4的最小启动循环可获得流水线的最大吞吐率,以(1,7)为例:(其他类似,最大吞吐率皆相同)

当任务数为偶数2n 时:

)n (t

41

t n 8n 2t 7)1n (t n t 7n 2TP ∞→?=?=??-+??+?=

当任务数为奇数2n+1时:

)n (t

41

n /t 7t 8n /12t 7t n 81n 2t 7n t n t 71n 2TP ∞→?=?+?+=?+?+=??+??+?+=

∴ 流水线的最大吞吐率为:)s /(M 5.12ns

2041

t 41任务=?=?

10个任务的实际吞吐率:利用上式可得(偶数个任务)TP 10=1/4△t=12.5M(任务/s)。 ⑺

该流水线的连接图为:

7. 一条由4个功能段组成的非线性流水线的预约表如下,每个功能段的延迟

时间都为10ns 。

输入

⑴ 写出流水线的禁止向量和初始冲突向量。 ⑵ 画出调度流水线的状态图。

⑶ 求流水线的最小启动循环和最小平均启动距离。

⑷ 在流水线中插入一个非计算延迟功能段后,求该流水线的最佳启动循环及其

最小平均启动距离。

⑸ 画出插入一个非计算延迟功能段后的流水线预约表(5行8列)。 ⑹ 画出插入一个非计算延迟功能段后的流水线状态变换图。 ⑺ 分别计算在插入一个非计算延迟功能段前、后的最大吞吐率。

⑻ 如果连续输入10个任务,分别计算在插入一个非计算延迟功能段前、后的

实际吞吐率。 答: ⑴

禁止向量F=(5,2,1);冲突向量C=(10011)。 ⑵

最小启动循环为(3),最小平均启动距离为3。 ⑷

插入一个非计算延迟功能段后,最小平均启动距离为2(因为预约表中每行至多2个×),相应地可改进最小启动循环为(2)。 ⑸

i=4

流水线的禁止向量为(1,3,7),流水线的冲突向量为1000101, 流水线的状态图如下:

流水线的最小启动循环为(2),最小平均启动距离为2。 ⑺

插入前:

)s /(1033.3ns

1031

t 31t 3)1n (t 6n TP 7n max lim

任务数?≈?=?=??-+?=∞

插入后:

)s /(105ns

1021

t 21t 2)1n (t 6n TP 7n max lim

任务数?=?=?=??-+?=∞

连续输入10个任务,插入前的实际吞吐率为:

)s /(1003.3ns

103310

t 3310t 39t 610TP 7任务数?≈?=?=??+?=

连续输入10个任务,插入后的实际吞吐率为:

)s /(1085.3ns

102610

t 2610t 29t 810TP 7任务数?≈?=?=??+?=

8. 在流水线处理机中,有独立的加法操作部件和乘法操作部件各一个,加法

操作部件为4段流水线,乘法操作部件6段流水线,都在第一段从通用寄存器读操作数,在最后一段把运算结果写到通用寄存器中。每段的时间长度都相等,都是一个时钟周期。每个时钟周期发出一条指令。问可能发生哪几种数据相关写出发生相关的指令序列,分析相关发生的原因,并给出解决相关的具体办法。 答:

可能的数据相关性有: ⑴ “先写后读”(RAW )相关

Read After 加法写。原因:还没有写好就已经读取寄存器中的数据了。

DADD R1,R2,R3 ;(R2)+(R3)→(R1) DSUB R4,R1,R5

;(R1)-(R5)→(R4)

Read After 乘法写。原因:还没有写好已经读取寄存器中的数据了。

DMUL R1,R2,R3 ;(R2)×(R3)→(R1) DSUB R4,R1,R5

;(R1)-(R5)→(R4)

本相关在流水线顺序执行和乱序执行时都可能发生。解决的方法是:利用编译程序调整指令的次序方法;延迟执行是避免数据相关最简单的方法;建立寄存器之间的专用路径。 ⑵ “写—写”(WAW )相关

Write After 乘法写。原因:后写的反而早执行(乘法所化的时间长,后面

一个写任务反而先完成),使最后写入的内容不正确。

DMUL R1,R2,R3 ;(R2)×(R3)→(R1)

DSUB R1,R4,R5 ;(R4)-(R5)→(R1)

本相关只有在流水线乱序执行时才可能发生。解决的方法是:寄存器换名。

⑶“先读后写”(WAR)相关

Write After 任何读。原因:前面的读操作因为某种原因被推迟,要读的内容被后面的写操作修改了。

DSUB R4,R1,R5 ;(R1)-(R5)→(R4)

DADD R1,R2,R3 ;(R2)+(R3)→(R1)

本相关只有在流水线乱序执行时才可能发生。解决的方法是:寄存器换名。

9. 在下列不同结构的处理机上运行8×8的矩阵乘法C=A×B,计算所需要的

最短时间。只计算乘法指令和加法指令的执行时间,不计算取操作数、数据传送和程序控制等指令的执行时间。加法部件和乘法部件的延迟时间都是3个时钟周期,另外,加法指令和乘法指令还要经过一个“取指令”和“指令译码”的时钟周期,每个时钟周期为20ns,C的初始值为“0”。各操作部件的输出端有直接数据通路连接到有关操作部件的输入端,在操作部件的输出端设置有足够容量的缓冲寄存器。

⑴处理机内只有一个通用操作部件,采用顺序方式执行指令。

⑵单流水线标量处理机,有一条两个功能的静态流水线,流水线每个功能段的

延迟时间均为一个时钟周期,加法操作和乘法操作各经过3个功能段。

⑶多操作部件处理机,处理机内有独立的乘法部件和加法部件,两个操作部件

可以并行工作。只有一个指令流水线,操作部件不采用流水线结构。

⑷单流水线标量处理机,处理机内有两条独立的操作流水线,流水线每个功能

段的延迟时间均为一个时钟周期。

⑸超标量处理机,每个时钟周期同时发射一条乘法指令和一条加法指令,处理

机内有两条独立的操作流水线,流水线的每个功能段的延迟时间均为一个时钟周期。

⑹超流水线处理机,把一个时钟周期分为两个流水级,加法部件和乘法部件的

延迟时间都为6个流水级,每个时钟周期能够分时发射两条指令,即每个流水级能够发射一条指令。

⑺超标量超流水线处理机,把一个时钟周期分为两个流水级,加法部件和乘法

部件延迟时间都为6个流水级,每个流水级能够同时发射一条乘法指令和一条加法指令。

答:

要完成上面的矩阵乘法,需要完成的乘法数目为8×8×8=512次;需要完成的加法数目为8×8×7=448次;下面分析处理机的结构会给性能带来什么样的影响。

⑴通用操作部件采用顺序方式执行

顺序执行时,每个乘法和加法指令都需要5个时钟周期(取指令、指令分析、指令执行);所以所需要的时间为:

=

(

=

?

=

+

512

?

ns

96000

96

s

ns

20

)

5

448

⑵单流水线标量处理机,有一条两个功能的静态流水线

因为有足够的缓冲寄存器,所以我们可以首先把所有的乘法计算完,并通过调度使加法流水线不出现停顿,所以所需要的时间为:

12345678513514515516517518963964965966

1=①+②、2=1+③、3=2+④、4=3+⑤、5=4+⑥、6=5+⑦、7=6+⑧

?

=

-

2[

-

+

=

+

3(

+

+

)1

19

.

32

s

512

ns

3(

20

448

1

)]

⑶多操作部件处理机,只有一条指令流水线

由于只有一条指令流水线,所以只能一个时钟周期发射一条指令;由于操作

部件不采用流水线,对于结果C矩阵的第一个元素,首先执行2次乘法,然后乘法和加法并行执行7次,此时C矩阵的第一个元素出来了,然后加法运算停顿3个时钟周期,再开始与乘法并行执行运算7次,如此下去,直到C的64个元素都出来。故执行时间为:

s

82

.

30

ns

30820

ns

20

)]

7

3

3(

63

)7

3

2

3(

2[

=

=

?

?

+

?

+

?

+

?

+

=

⑷单流水线标量处理机,处理机内有两条独立的操作流水线

由于只有一条指令流水线,所以只能一个时钟周期发射一条指令;对于乘法运算不存在数据相关,对于加法运算有数据相关,由于存在足够的缓冲寄存器,我们可以通过合适的调度消除加法的数据相关。因此,最佳情况下的执行时间为:

12345678910111213141516171819202122

1=①+②、2=1+③、3=2+④、4=3+⑤、5=4+⑥、6=5+⑦、7=6+⑧

s

28

.

19

ns

19280

ns

20

]1

)

448

512

(

3

2[

=

=

?

-

+

+

+

=

⑸超标量处理机

同一时钟周期可以有一条乘法指令和一条加法指令同时发射,对于乘法运算不存在数据相关性,对于加法运算有数据相关性,由于存在足够的缓冲寄存器,当运算完所有的乘法运算后,还要做一次加法运算。因此执行时间为:

加法加3123456712345…加2123456712345…

加1123456712345…

译码123456712345…

12345678910111213141516171819202122

1=①+②、2=1+③、3=2+④、4=3+⑤、5=4+⑥、6=5+⑦、7=6+⑧

=

3

=

2[

+

=

+

(

-

+

?

ns

10

.

38

10380

s

)1

]3

20

512

ns

⑹超流水线处理机

每个时钟周期发射两条指令,加法部件和乘法部件都为6个流水级。事实上相当于将时钟周期变成了10ns,而加法和乘法流水线变成了6级。因此执行时间为:

=

6

4[

=

-

=

+

+

+

?

448

ns

.9

69

s

9690

ns

512

)

]1

(

10

⑺超标量超流水线处理机

一个时钟周期分为两个流水级,加法部件和乘法部件都为6个流水级,每个流水级能同时发射一条加法和一条乘法指令。综合⑸和⑹的分析,我们可以知道,执行时间为:

=

=

4[

?

-

=

+

+

6

+

ns

5270

.5

27

s

ns

10

512

)1

]6

(

计算机系统结构题库

《计算机系统结构》题库 一.单项选择题(在下列每小题的四个备选答案中,只有一个答案是正确的,请把你认为是正确的答案填入题后的()内,每小题2分) 第一章: 1.计算机系统多级层次中,从下层到上层,各级相对顺序正确的应当是: A.汇编语言机器级---操作系统机器级---高级语言机器级 B.微程序机器级---传统机器语言机器级---汇编语言机器级 C.传统机器语言机器级---高级机器语言机器级---汇编语言机器级 D.汇编语言机器级---应用语言机器级---高级语言机器级 答案:B 分数:2 所属章节1—1 2.汇编语言源程序变成机器语言目标程序是经来实现的。 A. 编译程序解释 B. 汇编程序解释 C. 编译程序翻译 D. 汇编程序翻译 答案:D 分数:2 所属章节1—1 3.直接执行微指令的是: A. 汇编程序 B. 编译程序 C. 硬件 D. 微指令程序 答案:C 分数:2 所属章节1—1 4.对系统程序员不透明的是: A. Cache存储器 B. 系列机各档不同的数据通路宽度 C. 指令缓冲寄存器 D. 虚拟存储器 答案:D 分数:2 所属章节1—2 5.对应用程序员不透明的是: A. 先行进位链 B. 乘法器 C. 指令缓冲器 D. 条件码寄存器 答案:D 分数:2 所属章节1—2 6.对机器语言程序员透明的是: A. 中断字 B. 主存地址寄存器 C. 通用寄存器 D. 条件码 答案:B 分数:2 所属章节1—2 7.计算机系统结构不包括: A. 主存速度 B. 机器工作状态 C. 信息保护 D. 数据表示 答案:A 分数:2 所属章节1—2 8.对计算机系统结构透明的是: A. 字符行运算指令 B. 是否使用通道行I/O处理机 C. 虚拟存储器 D. VLSI技术 答案:D 分数:2 所属章节1—2 9.对汇编语言程序员透明的是: A.I/O方式中的DMA访问方式 B. 浮点数据表示 C. 访问方式保护 D 程序性中断. 答案:A 分数:2 所属章节1—2 10.属计算机系统结构考虑的应是:

计算机系统结构模拟试题(5)

计算机组成原理模拟试题(2) 一、填空题:04分,每题02分 1、X=-0.1001 [X]原=_____________ [X]补=_____________[-X]补=_____________ Y=0.0101 [Y]原=_____________ [Y]补=_____________ [-Y]补=_____________ [X+Y]补=_____________ 2、对西文输出的字符设备,在计算机的内存储器中存储的是字符数据的每个字符的_____________码,输出(包括显示或打印)的则是每个字符的_____________,设备中的字符发生器的主要功能是解决从字符的_____________码和字符的_____________间的对应关系。 二、单选题:20分,每题02分 3、32 x 32点阵汉字的机内编码需要。 A: 16个字节 B: 32个字节 C: 32×2个字节 D: 32×4个字节 4、某机字长32位,采用原码定点整数表示,符号位为1位,数值位为31位,则可表示的最大正整数为,最小负整数为。 A: B: C: D: 5、在定点二进制运算器中,减法运算一般通过来实现。 A: 原码运算的二进制减法器 B: 补码运算的二进制减法器 C: 补码运算的十进制加法器 D: 补码运算的二进制加法器 6、在浮点数运算中产生溢出的原因是。 A: 运算过程中最高位产生了进位或借位 B: 参加运算的操作数超出了机器的表示范围 C: 运算的结果的阶码超出了机器的表示范围 D: 寄存器的位数太少,不得不舍弃最低有效位 7、无论如何划分计算机的功能部件,控制器部件中至少含有。 A: PC、IP B: PC、IR C: IR、IP D: AR、IP 8、某存储器容量为32K×16位,则 A: 地址线为16根,数据线为32根 B: 地址线为32根,数据线为16根

北邮高级计算机系统结构实验二三四五

实验二指令流水线相关性分析 ·实验目的 通过使用WINDLX模拟器,对程序中的三种相关现象进行观察,并对使用专用通路,增加运算部件等技术对性能的影响进行考察,加深对流水线和RISC处理器的特点的理解。 ·实验原理: 指令流水线中主要有结构相关、数据相关、控制相关。相关影响流水线性能。·实验步骤 一.使用WinDLX模拟器,对做如下分析: (1)观察程序中出现的数据/控制/结构相关。指出程序中出现上述现象的指令组合。 (2)考察增加浮点运算部件对性能的影响。 (3)考察增加forward部件对性能的影响。 (4)观察转移指令在转移成功和转移不成功时候的流水线开销。 ·实验过程 一.使用WinDLX模拟器,对做如下分析: } 浮点加、乘、除部件都设置为1,浮点数运算部件的延时都设置为4,如图1: 图1 初始设置 将和加载至WinDLX中,如图2示。

图2 加载程序 1.观察程序中出现的数据/控制/结构相关;指出程序中出现上述现象的指令组合。 1)数据相关 点击F7,使程序单步执行,当出现R-Stall时停止,运行过程中出现下图3所示,输入整数6。 图3 输入整数6 @ 打开Clock Diagram,可以清楚的看到指令执行的流水线如图4所示。 图4 指令流水线 双击第一次出现R-Stall的指令行,如图5所示。

图5 指令详细信息 对以上出现的情况分析如下: 程序发生了数据相关,R-Stall(R-暂停)表示引起暂停的原因是RAW。 lbu r3,0×0(r2) 要在WB周期写回r3中的数据;而下一条指令 & seqi r5,r3,0×a 要在intEX周期中读取r3中的数据。 上述过程发生了WR冲突,即写读相关。为了避免此类冲突, seq r5,r4,0×a的intEX指令延迟了一个周期进行。 由此,相关指令为: 2)控制相关 由图6可以看出,在第4时钟周期:第一条指令处于MEM段,第二条命令处于intEX段,第三条指令出于aborted状态,第四条命令处于IF段。 图 6 指令流水线 }

计算机系统结构 第四章(习题解答)

1. 假设一条指令的执行过程分为“取指令”、“分析”和“执行”三段,每一段的时间分别是△t 、2△t 和3△t 。在下列各种情况下,分别写出连续执行n 条指令所需要的时间表达式。 ⑴ 顺序执行方式。 ⑵ 仅“取指令”和“执行”重叠。 ⑶ “取指令”、“分析”和“执行”重叠。 答: 1 2 3 4 ...... 1 2 3 4 1 2 3 4 T =6△t +∑=1 -n 1 i i )t (执行=6△t +(n-1)(3△t)=(3n +3)△t △t 2△t 3△t

2. 一条线性流水线有4个功能段组成,每个功能段的延迟时间都相等,都为△t。开始5个任务, 每间隔一个△t向流水线输入一个任务,然后停顿2个△t,如此重复。求流水线的实际吞吐率、加速比和效率。 答: n→ I1:R1←A1+A2 I2:R2←A3+A4 I3:R3←A5+A6 I4:R4←A7+A8 I5:R5←A9+A10 I6:R6←R1+R2 I7:R7←R3+R4

I8:R8←R5+R6 I9:F←R7+R8 这并不是唯一可能的计算方法。假设功能段的延迟为Δt。时空图如下(图中的数字是指令号): I4:R3←A3*B3 I11:R10←R6+R7 I5:R4←A4*B4 I12:R11←R8+R9 I6:R5←A5*B5 I13:F←R10+R11 I7:R6←A6*B6 假设功能段的延迟为Δt。时空图如下(图中的数字是指令号): 1 2 3 4 5 6 7 8 9 10 11 12 13

1 2 3 4 5 6 7 1 2 3 4 5 6 7 8 9 10 11 12 13 8 9 10 11 12 13 1 2 3 4 5 6 7 8 9 10 11 12 13 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 222324 整个计算过程需要24Δt,所以吞吐率为: 5. S 2 ⑴ ⑵ ⑶ 答: ⑴ 下表: ⑵ 每间隔两个△t向流水线的输入端连续输入新任务(如见下表所示)可获得最佳性能。

2010年4月自考计算机系统结构试题及答案

全国2010年4月自学考试计算机系统结构试题 课程代码:02325 一、单项选择题(本大题共10小题,每小题1分,共10分) 在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。错选、多选或未选均不得分。 1.在计算机系统结构设计中,提高软件功能实现的比例可( ) A.提高解题速度B.减少需要的存储器容量 C.提高系统的灵活性D.提高系统的性能价格比 2.浮点数表示的尾数的基r m=16,尾数长度p=8,可表示的规格化最大正尾数的值是( ) A.1/256 B.1/2 C.15/16 D.255/256 3.下列数据存储空间为隐含寻址方式的是( ) A.CPU中的通用寄存器B.主存储器 C.I/O接口中的寄存器D.堆栈 4.当计算机系统执行通道程序完成输入输出工作时,执行通道程序的是( ) A.CPU B.通道 C.CPU和通道D.指定的外设 5.下列有关中断的叙述正确的是( ) A.中断响应的次序是由硬件决定的B.中断处理的次序是由硬件决定的 C.中断处理的次序是不可改的D.中断响应的次序是可灵活改变的 6.与虚拟存储器的等效访问速度无关 ..的是( ) A.访存页地址流B.页面替换算法 C.主存的容量D.辅存的容量 7.非线性流水线的特征是( ) A.一次运算中使用流水线中的多个功能段 B.一次运算中多次使用流水线中的某些功能段 C.流水线中某些功能段在各次运算中的作用不同 D.流水线的各功能段在不同的运算中可以有不同的连接 8.属于集中式共享存储器结构的SIMD计算机是( ) A.ILLIAC IV B.BSP C.CM-2 D.MP-1 1

计算机系统结构模拟试题5

计算机组成原理模拟试题(2)一、填空题:04分,每题02分 =_____________ [X]补=_____________补-X][1、 X=-0.1001 [X]原 =_____________ =_____________ =_____________ [-Y]补Y]原=_____________ []补 Y=0.0101 [Y ]补=_____________ [X+Y对西文输出的字符设备,在计算机的内存储器中存储的是 字符数据的每个字符的、 2,设备中的字符_____________(包括显示或打印)的则是每个字 符的码,输出_____________间的对应关_____________发生器的主要功能是解决从字符的 _____________码和字符的系。分二、单选题:20分,每题02 。3、 32 x 32点阵汉 字的机内编码需要 A: 16个字节 B: 32个字节 2个字节 C: 32×个字节 D: 32×4位,则可表示位,数值位为314、某机字长32位,采 用原码定点整数表示,符号位为1 。,最小负整数为的最大正整数为 A: B: C: D: 来实现。 5、在定点二进制运算器中,减法运算一般通过 A: 原码运算的二进制减法器 B: 补码运算的二进制减法器 C: 补码运算的十进制加法器 D: 补码运算的二进制加法器 。 6、在浮点数运算中产生溢出的原因是运算过程中最高位产生了进位或借位 A: 参加运算的操作数超出了机器的表示范围B: C: 运算的结果的阶码超出了机器的表示范围寄存器的位数太少,不得不舍弃最低有效位 D: 。 7、无论如何划分计算机的功能部件,控制器部件中至少含有 IP A: PC、 IR B: PC、、IP C: IR D: AR、IP 8、某存储器容量为32K×16位,则 A: 地址线为16根,数据线为32根 根16根,数据线为32地址线为B: C: 地址线为15根,数据线为16根 D: 地址线为15根,数据线为32根 9、在统一编址方式下,存储单元和I/O设备是靠指令中的来区分的。

计算机体系结构实验报告二

实验二结构相关 一、实验目得: 通过本实验,加深对结构相关得理解,了解结构相关对CPU性能得影响。 二、实验内容: 1、用WinDLX模拟器运行程序structure_d、s 。 2、通过模拟,找出存在结构相关得指令对以及导致结构相关得部件。 3、记录由结构相关引起得暂停时钟周期数,计算暂停时钟周期数占总执行 周期数得百分比。 4、论述结构相关对CPU性能得影响,讨论解决结构相关得方法。 三、实验程序structure_d、s LHI R2, (A>>16)&0xFFFF 数据相关 ADDUI R2, R2, A&0xFFFF LHI R3, (B>>16)&0xFFFF ADDUI R3, R3, B&0xFFFF ADDU R4, R0, R3 loop: LD F0, 0(R2) LD F4, 0(R3) ADDD F0, F0, F4 ;浮点运算,两个周期,结构相关 ADDD F2, F0, F2 ; < A stall is found (an example of how to answer your questions) ADDI R2, R2, #8 ADDI R3, R3, #8 SUB R5, R4, R2 BNEZ R5, loop ;条件跳转 TRAP #0 ;; Exit < this is a ment !! A: 、double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 B: 、double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 四、实验过程 打开软件,load structure_d、s文件,进行单步运行。经过分析,此程序一 次循环中共有五次结构相关。(Rstall 数据相关Stall 结构相关) 1)第一个结构相关:addd f2,,f0,f2 由于前面得数据相关,导致上一条指令addd f0,f0,f4暂停在ID阶段,所以下一条指令addd f2,,f0,f2发生结构相关,导致相关得部件:译码部件。

计算机体系结构试题汇总

计算机系统结构 姓名:学号: 一、简答题(每小题10分,共20分) 1.简述使用物理地址进行DMA存在的问题,及其解决办法。 2.从目的、技术途径、组成、分工方式、工作方式等5个方面对同构型多处理机和异构型多处理机做一比较(列表)。 二、(60分)现有如下表达式: Y=a ×X 其中:X和Y是两个有64个元素的32位的整数的向量,a为32位的整数。假设在存储器中,X和Y的起始地址分别为1000和5000,a的起始地址为6000。 1.请写出实现该表达式的MIPS代码。 2.假设指令的平均执行时钟周期数为5,计算机的主频为500 MHz,请计算上述MIPS 代码(非流水化实现)的执行时间。 3.将上述MIPS代码在MIPS流水线上(有正常的定向路径、分支指令在译码段被解析出来)执行,请以最快执行方式调度该MIPS指令序列。注意:可以改变操作数,但不能改变操作码和指令条数。画出调度前和调度后的MIPS代码序列执行的流水线时空图,计算调度前和调度后的MIPS代码序列执行所需的时钟周期数,以及调度前后的MIPS流水线执行的加速比。 4.根据3的结果说明流水线相关对CPU性能的影响。 三、(20分)请分析I/O对于性能的影响有多大?假设: 1.I/O操作按照页面方式进行,每页大小为16 KB,Cache块大小为64 B;且对应新页的地址不在Cache中;而CPU不访问新调入页面中的任何数据。 2.Cache中95%被替换的块将再次被读取,并引起一次失效;Cache使用写回方法,平均50%的块被修改过;I/O系统缓冲能够存储一个完整的Cache块。 3.访问或失效在所有Cache块中均匀分布;在CPU和I/O之间,没有其他访问Cache 的干扰;无I/O时,每1百万个时钟周期中,有15,000次失效;失效开销是30个时钟周期。如果替换块被修改过,则再加上30个周期用于写回主存。计算机平均每1百万个周期处理一页。

计算机系统结构模拟题

《计算机系统结构》模拟题 一.判断是非题,对的打√,错的打× 1.系列机是指由一个厂家生产的具有相同组成,但具有不同系统结构和实现的一系列不同型号的机器。 ( × ) 2.Cray 1向量处理机中,由于每个向量寄存器的长度为64,当实际需要处理的向量长度大于64时,它就不能够处理了。 ( × ) 3.按照Flynn 分类法,Illiac IV 阵列处理机是MIMD 计算机。 ( × ) 4.多级混洗交换网络是阻塞网络。 ( √ ) 二.填空题 1.多机系统的互连网络的通信模式可分为4种,其中,一对一的通信模式称为____单播_____模式,一对全体的通信模式为_____广播____模式,多对多的通信模式为____会议_____模式。 2.SIMD 计算机和流水线向量处理机都可以执行向量指令,前者采用___资源重复______并行性,后者采用___时间重叠______并行性。 3.系列机软件兼容必须做到___向后_____兼容,力争做到___向上_____兼容。 4.流水线消除瓶颈段的方法有____细分_____和____重复设置瓶颈段(可交换次序)_____2种方法。 5.设通道数据传送过程中,选择一次设备的时间为 s T ,传送一个字节的时间为D T ,则字 节多路通道最大流量等于____ D s T T 1 _____。 6.Illiac IV 8×8阵列中,网络直径为____7_____。 7.对堆栈型替换算法,增大分配给程序的___主存页面______,对第一级存储器的命中率就会单调____上升_____。 8.从网络的任何结点看,若网络拓扑结构都是相同的,则称这样的网络是___对称______网络。 三.单项选择题 1.在计算机系统层次结构中,从下层到上层,各层相对顺序正确的是( B )。 A.汇编语言机器级-操作系统机器级-高级语言机器级 B.微程序机器级-传统机器语言机器级-汇编语言机器级 C.传统机器语言机器级-高级语言机器级-汇编语言机器级 D.汇编语言机器级-应用语言机器级-高级语言机器级 2.Illiac IV 阵列处理机中,PE 之间所用的互连函数是( A )。

(完整版)计算机系统结构试题及答案

计算机系统结构复习题 单选及填空: 计算机系统设计的主要方法 1、由上往下的设计(top-down) 2、由下往上的设计(bottom-up) 3、从中间开始(middle-out) Flynn分类法把计算机系统的结构分为以下四类: (1)单指令流单数据流 (2)单指令流多数据流 (3)多指令流单数据流 (4) 多指令流多数据流 堆栈型机器:CPU 中存储操作数的单元是堆栈的机器。 累加器型机器:CPU 中存储操作数的单元是累加器的机器。 通用寄存器型机器:CPU 中存储操作数的单元是通用寄存器的机器。 名词解释: 虚拟机:用软件实现的机器叫做虚拟机,但虚拟机不一定完全由软件实现,有些操作可以由硬件或固件(固件是指具有软件功能的固件)实现。 系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。 兼容机:它是指由不同公司厂家生产的具有相同系统结构的计算机。 流水线技术:将一个重复的时序过程,分解成为若干个子过程,而每一个子过程都可有效地在其专用功能段上与其它子过程同时执行。 单功能流水线:指流水线的各段之间的连接固定不变、只能完成一种固定功能的流水线。 多功能流水线:指各段可以进行不同的连接,以实现不同的功能的流水线。 顺序流水线:流水线输出端任务流出的顺序与输入端任务流入的顺序完全相同。 乱序流水线:流水线输出端任务流出的顺序与输入端任务流入的顺序可以不同,允许后进入流水线的任务先完成。这种流水线又称为无序流水线、错序流水线、异步流水线。 吞吐率:在单位时间内流水线所完成的任务数量或输出结果的数量。 指令的动态调度:

是指在保持数据流和异常行为的情况下,通过硬件对指令执行顺序进行重新安排,以提高流水线的利用率且减少停顿现象。是由硬件在程序实际运行时实施的。 指令的静态调度: 是指依靠编译器对代码进行静态调度,以减少相关和冲突。它不是在程序执行的过程中、而是在编译期间进行代码调度和优化的。 超标量: 一种多指令流出技术。它在每个时钟周期流出的指令条数不固定,依代码的具体情况而定,但有个上限。 超流水:在一个时钟周期内分时流出多条指令。 多级存储层次: 采用不同的技术实现的存储器,处在离CPU不同距离的层次上,各存储器之间一般满足包容关系,即任何一层存储器中的内容都是其下一层(离CPU更远的一层)存储器中内容的子集。目标是达到离CPU最近的存储器的速度,最远的存储器的容量。 写直达法: 在执行写操作时,不仅把信息写入Cache中相应的块,而且也写入下一级存储器中相应的块。写回法: 只把信息写入Cache中相应块,该块只有被替换时,才被写回主存。 集中式共享多处理机: 也称为对称式共享存储器多处理SMP。它一般由几十个处理器构成,各处理器共享一个集中式的物理存储器,这个主存相对于各处理器的关系是对称的, 分布式共享多处理机: 它的共享存储器分布在各台处理机中,每台处理机都带有自己的本地存储器,组成一个“处理机-存储器”单元。但是这些分布在各台处理机中的实际存储器又合在一起统一编址,在逻辑上组成一个共享存储器。这些处理机存储器单元通过互连网络连接在一起,每台处理机除了能访问本地存储器外,还能通过互连网络直接访问在其他处理机存储器单元中的“远程存储器”。 多Cache一致性: 多处理机中,当共享数据进入Cache,就可能出现多个处理器的Cache中都有同一存储器块的副本,要保证多个副本数据是一致的。 写作废协议: 在处理器对某个数据项进行写入之前,它拥有对该数据项的唯一的访问权 。 写更新协议: 当一个处理器对某数据项进行写入时,它把该新数据广播给所有其它Cache。这些Cache用该新数据对其中的副本进行更新。 机群:是一种价格低廉、易于构建、可扩放性极强的并行计算机系统。它由多台同构或异构

计算机系统结构总复习题

一、单项选择题 1、直接执行微指令的是( ) A.汇编程序B.编译程序 C.硬件D.微指令程序 2、对系统程序员不透明的应当是( )。 A.Cache存贮器B.系列机各档不同的数据通路宽度C.指令缓冲寄存器D.虚拟存贮器 3、对机器语言程序员透明的是( )。 A.中断字B.主存地址寄存器 C.通用寄存器D.条件码 4、计算机系统结构不包括( )。 A.主存速度B.机器工作状态 C.信息保护D.数据 5、从计算机系统结构上讲,机器语言程序员所看到的机器属性是( )。A.计算机软件所要完成的功能B.计算机硬件的全部组成 C.编程要用到的硬件组织D.计算机各部件的硬件实现 6、计算机组成设计不考虑( )。 A.专用部件设置B.功能部件的集成度 C.控制机构的组成D.缓冲技术 7、以下说法中,不正确的是( )。 软硬件功能是等效的,提高硬件功能的比例会: A.提高解题速度B.提高硬件利用率 C.提高硬件成本D.减少所需要的存贮器用量 8、在系统结构设计中,提高软件功能实现的比例会( )。 A.提高解题速度B.减少需要的存贮容量 C.提高系统的灵活性D.提高系统的性能价格比 9、下列说法中不正确的是( )。 A.软件设计费用比软件重复生产费用高 B.硬件功能只需实现一次,而软件功能可能要多次重复实现 C.硬件的生产费用比软件的生产费用高 D.硬件的设计费用比软件的设计费用低 10、在计算机系统设计中,比较好的方法是( )。 A.从上向下设计B.从下向上设计 C.从两头向中间设计D.从中间开始向上、向下设计11、"从中间开始"设计的"中间"目前多数是在( )。 A.传统机器语言级与操作系统机器级之间 B.传统机器语言级与微程序机器级之间 C.微程序机器级与汇编语言机器级之间 D.操作系统机器级与汇编语言机器级之间 12、系列机软件应做到( )。 A.向前兼容,并向上兼容 B.向后兼容,力争向上兼容

计算机系统结构考试题库及答案

计算机系统结构试题及答案 一、选择题(50分,每题2分,正确答案可能不只一个,可单选 或复选) 1.(CPU周期、机器周期)是内存读取一条指令字的最短时间。 2.(多线程、多核)技术体现了计算机并行处理中的空间并行。 3.(冯?诺伊曼、存储程序)体系结构的计算机把程序及其操作数 据一同存储在存储器里。 4.(计算机体系结构)是机器语言程序员所看到的传统机器级所具 有的属性,其实质是确定计算机系统中软硬件的界面。 5.(控制器)的基本任务是按照程序所排的指令序列,从存储器取 出指令操作码到控制器中,对指令操作码译码分析,执行指令操作。 6.(流水线)技术体现了计算机并行处理中的时间并行。 7.(数据流)是执行周期中从内存流向运算器的信息流。 8.(指令周期)是取出并执行一条指令的时间。 9.1958年开始出现的第二代计算机,使用(晶体管)作为电子器件。 10.1960年代中期开始出现的第三代计算机,使用(小规模集成电路、 中规模集成电路)作为电子器件。 11.1970年代开始出现的第四代计算机,使用(大规模集成电路、超 大规模集成电路)作为电子器件。 12.Cache存储器在产生替换时,可以采用以下替换算法:(LFU算法、 LRU算法、随机替换)。

13.Cache的功能由(硬件)实现,因而对程序员是透明的。 14.Cache是介于CPU和(主存、内存)之间的小容量存储器,能高 速地向CPU提供指令和数据,从而加快程序的执行速度。 15.Cache由高速的(SRAM)组成。 16.CPU的基本功能包括(程序控制、操作控制、时间控制、数据加 工)。 17.CPU的控制方式通常分为:(同步控制方式、异步控制方式、联合 控制方式)反映了时序信号的定时方式。 18.CPU的联合控制方式的设计思想是:(在功能部件内部采用同步控 制方式、在功能部件之间采用异步控制方式、在硬件实现允许的情况下,尽可能多地采用异步控制方式)。 19.CPU的同步控制方式有时又称为(固定时序控制方式、无应答控 制方式)。 20.CPU的异步控制方式有时又称为(可变时序控制方式、应答控制 方式)。 21.EPROM是指(光擦可编程只读存储器)。 22.MOS半导体存储器中,(DRAM)可大幅度提高集成度,但由于(刷 新)操作,外围电路复杂,速度慢。 23.MOS半导体存储器中,(SRAM)的外围电路简单,速度(快),但 其使用的器件多,集成度不高。 24.RISC的几个要素是(一个有限的简单的指令集、CPU配备大量的 通用寄存器、强调对指令流水线的优化)。

计算机系统结构模拟题

《计算机系统结构》模拟题(补)一.单项选择题 1. SIMD是指()。 A、单指令流单数据流 B、单指令流多数据流 C、多指令流单数据流 D、多指令流多数据流 2. 磁盘外部设备适合于连接到()。 A.字节多路通道B.数组多路通道或选择通道 C.选择通道或字节多路通道D.数组多路通道或字节多路通道 3. 下列()存储设备不需要编址。 A. 通用寄存器 B. 主存储器 C. 输入输出设备 D. 堆栈 4.多处理机的各自独立型操作系统( )。 A.要求管理程序不必是可再入的 B.适合于紧耦合多处理机 C.工作负荷较平衡 D.有较高的可靠性 5.输入输出系统硬件的功能对( )是透明的。 A.操作系统程序员 B.应用程序员 C.系统结构设计人员 D.机器语言程序设计员 6. 实现汇编语言源程序变换成机器语言目标程序是由()。 A.编译程序解释B.编译程序翻译 C.汇编程序解释D.汇编程序翻译 7.全相联地址映象是指( )。 A.任何虚页都可装入主存中任何实页的位置 B.一个虚页只装进固定的主存实页位置 C.组之间是固定的,而组任何虚页可以装入任何实页位置 D.组间可任意装入,组是固定装入 8.( )属于MIMD系统结构。 A.各处理单元同时受同一个控制单元的管理 B.各处理单元同时接受同一个控制单元送来的指令 C.松耦合多处理机和多计算机 D.阵列处理机

9.设16个处理器编号分别为0,1,2,…,15用Cube3互联函数时,第10号处理机与第( ) 号处理机相联。 A.11 B.8 C.14 D.2 10.若输入流水线的指令既无局部性相关,也不存在全局性相关,则( )。 A.可获得高的吞吐率和效率 B.流水线的效率和吞吐率恶化 C.出现瓶颈 D.可靠性提高 11.流水线的技术指标不包括( )。 A.响应比 B.吞吐率 C.加速比 D.效率 12.指令优化编码方法,就编码的效率来讲,方法最好是()。 A. 固定长度编码 B. 扩展编码法 C. Huffman编码法 D. 以上编码都不是 13.RISC 计算机的指令系统集类型是 ( ) 。 A. 堆栈型 B. 累加器型 C. 寄存器—寄存器型 D. 寄存器 - 存储器型 14.相联存储器的访问方式是( )。 A.先进先出顺序访问B.按地址访问 C.无地址访问D.按容访问 15.存储器读写速率越高,每位的成本也越高,存储容量也小。解决这一问题的主要方法是采用( )。 A.多级存储体系结构B.并行存储器 C. Cache D.缓冲技术 16.计算机系统多级层次中,从下层到上层,各级相对顺序正确的应当是()。 A.汇编语言机器级---操作系统机器级---高级语言机器级 B.微程序机器级---传统机器语言机器级---汇编语言机器级 C.传统机器语言机器级---高级语言机器级---汇编语言机器级 D. 汇编语言机器级---应用语言机器级---高级语言机器级 17.对系统程序员不透明的是()。 A.Cache 存储器 B.系列几各档不同的数据通路宽度 C.指令缓冲寄存器 D.虚拟存储器 18.在计算机系统设计中,比较好的方法是()。

北邮计算机系统结构实验报告-实验一到五-WINDLX模拟器

北京邮电大学 实验报告 课程名称计算机系统结构 计算机学院03班 王陈(11)

目录 实验一WINDLX模拟器安装及使用......................................... 错误!未定义书签。 ·实验准备................................................................................ 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验内容及要求.................................................................... 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验二指令流水线相关性分析 ............................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验三DLX处理器程序设计 .................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 A.向量加法代码及性能分析 ................................................... 错误!未定义书签。 B.双精度浮点加法求和代码及结果分析 .............................. 错误!未定义书签。 ·实验总结............................................................................. 错误!未定义书签。实验四代码优化 ....................................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验原理................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 ·实验总结+实习体会........................................................... 错误!未定义书签。实验五循环展开 ....................................................................... 错误!未定义书签。 ·实验目的............................................................................. 错误!未定义书签。 ·实验环境................................................................................ 错误!未定义书签。 ·实验原理................................................................................ 错误!未定义书签。 ·实验步骤................................................................................ 错误!未定义书签。 ·实验过程............................................................................. 错误!未定义书签。 矩阵乘程序代码清单及注释说明........................................... 错误!未定义书签。 相关性分析结果........................................................................... 错误!未定义书签。 增加浮点运算部件对性能的影响........................................... 错误!未定义书签。 增加forward部件对性能的影响 ............................................ 错误!未定义书签。 转移指令在转移成功和转移不成功时候的流水线开销 .. 错误!未定义书签。 ·实验总结+实习体会+课程建议......................................... 错误!未定义书签。

计算机系统结构实验报告

计算机系统结构实验报告 一.流水线中的相关 实验目的: 1. 熟练掌握WinDLX模拟器的操作和使用,熟悉DLX指令集结构及其特点; 2. 加深对计算机流水线基本概念的理解; 3. 进一步了解DLX基本流水线各段的功能以及基本操作; 4. 加深对数据相关、结构相关的理解,了解这两类相关对CPU性能的影响; 5. 了解解决数据相关的方法,掌握如何使用定向技术来减少数据相关带来的暂停。 实验平台: WinDLX模拟器 实验内容和步骤: 1.用WinDLX模拟器执行下列三个程序: 求阶乘程序fact.s 求最大公倍数程序gcm.s 求素数程序prim.s 分别以步进、连续、设置断点的方式运行程序,观察程序在流水线中的执行情况,观察 CPU中寄存器和存储器的内容。熟练掌握WinDLX的操作和使用。 2. 用WinDLX运行程序structure_d.s,通过模拟找出存在资源相关的指令对以及导致资源相 关的部件;记录由资源相关引起的暂停时钟周期数,计算暂停时钟周期数占总执行周期数的 百分比;论述资源相关对CPU性能的影响,讨论解决资源相关的方法。 3. 在不采用定向技术的情况下(去掉Configuration菜单中Enable Forwarding选项前的勾选符),用WinDLX运行程序data_d.s。记录数据相关引起的暂停时钟周期数以及程序执行的 总时钟周期数,计算暂停时钟周期数占总执行周期数的百分比。 在采用定向技术的情况下(勾选Enable Forwarding),用WinDLX再次运行程序data_d.s。重复上述3中的工作,并计算采用定向技术后性能提高的倍数。 1. 求阶乘程序 用WinDLX模拟器执行求阶乘程序fact.s。这个程序说明浮点指令的使用。该程序从标准 输入读入一个整数,求其阶乘,然后将结果输出。 该程序中调用了input.s中的输入子程序,这个子程序用于读入正整数。 实验结果: 在载入fact.s和input.s之后,不设置任何断点运行。 a.不采用重新定向技术,我们得到的结果

系统结构期末考试试题及答案

得分 评分人 填空题: (20分,每题2 分) 单选题:(10分,每题1分) A.任何虚页都可装入主存中任何实页的位置 B. 一个虚页只装进固定的主存实页位置 《计算机系统结构》期末考试试卷(A ) 得分 注:1、共100分,考试时间120分钟。 2、此试卷适用于计算机科学与技术本科专业。 1、."启动I/O"指令是主要的输入输出指令,是属于( A. 目态指令 B.管态指令 C.目态、管态都能用的指令 D.编译程序只能用的指令 2、 输入输出系统硬件的功能对 (B )是透明的 A.操作系统程序员 B.应用程序员 C.系统结构设计人员 D.机器语言程序设计员 3、 全相联地址映象是指(A ) C. 组之间固定,组内任何虚页可装入任何实页位置 D.组间可任意装入,组内是固定装入 4、( C ) 属于MIMD 系统结构 A.各处理单元同时受一个控制单元的管理 B.各处理单元同时受同个控制单元送来的指令 C.松耦合多处理机和多计算机系统 D. 阵列处理机 5、多处理机上两个程序段之间若有先写后读的数据相关,则( B ) A.可以并行执行 B.不可能并行 C.任何情况均可交换串行 D.必须并行执行 6、 计算机使用的语言是(B ) A.专属软件范畴,与计算机体系结构无关 B.分属于计算机系统各个层次 C.属于用以建立一个用户的应用环境 D. 属于符号化的机器指令 7、 指令执行结果出现异常引起的中断是( C ) A.输入/输出中断 B.机器校验中断 C.程序性中断 D.外部中断 &块冲突概率最高的 Cache 地址映象方式是(A ) A.直接 B .组相联 C .段相联 D .全相联 9、 组相联映象、LRU 替换的Cache 存储器,不影响 Cache 命中率的是(B ) A.增大块的大小 B .增大主存容量 C .增大组的大小 D .增加Cache 中的块数 10、 流水处理机对全局性相关的处理不 包括(C ) A.猜测法 B.提前形成条件码 C.加快短循环程序的执行 D.设置相关专用通路

计算机体系结构实验报告二

实验二结构相关 一、实验目的: 通过本实验,加深对结构相关的理解,了解结构相关对CPU性能的影响。 二、实验内容: 1. 用WinDLX模拟器运行程序structure_d.s 。 2. 通过模拟,找出存在结构相关的指令对以及导致结构相关的部件。 3. 记录由结构相关引起的暂停时钟周期数,计算暂停时钟周期数占总执行 周期数的百分比。 4. 论述结构相关对CPU性能的影响,讨论解决结构相关的方法。 三、实验程序structure_d.s LHI R2, (A>>16)&0xFFFF 数据相关 ADDUI R2, R2, A&0xFFFF LHI R3, (B>>16)&0xFFFF ADDUI R3, R3, B&0xFFFF ADDU R4, R0, R3 loop: LD F0, 0(R2) LD F4, 0(R3) ADDD F0, F0, F4 ;浮点运算,两个周期,结构相关 ADDD F2, F0, F2 ; <- A stall is found (an example of how to answer your questions) ADDI R2, R2, #8 ADDI R3, R3, #8 SUB R5, R4, R2 BNEZ R5, loop ;条件跳转 TRAP #0 ;; Exit <- this is a comment !! A: .double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 B: .double 1, 2, 3, 4, 5, 6, 7, 8, 9, 10

四、实验过程 打开软件,load structure_d.s文件,进行单步运行。经过分析,此程序一 次循环中共有五次结构相关。(R-stall 数据相关Stall- 结构相关) 1)第一个结构相关:addd f2,,f0,f2 由于前面的数据相关,导致上一条指令addd f0,f0,f4暂停在ID阶段,所以下一条指令addd f2,,f0,f2发生结构相关,导致相关的部件:译码部件。 2)第二个结构相关:ADDI R2, R2, #8,与第一个结构相关类似。由于数据相关, 上一条指令暂停在ID阶段,所以导致下一条指令发生结构相关。

相关文档
相关文档 最新文档