文档视界 最新最全的文档下载
当前位置:文档视界 › 高级计算机体系结构作业汇总(非标准答案)

高级计算机体系结构作业汇总(非标准答案)

高级计算机体系结构作业汇总(非标准答案)
高级计算机体系结构作业汇总(非标准答案)

1.Explain the Concepts

Computer Architecture

系统结构

由程序设计者所看到的一个计算机系统的属性。即计算机系统的软硬件界面。

Advanced CA

高级系统结构

新型计算机系统结构。基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。为非冯式系统结构。

Amdahl law

Amdahl定律

系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。

SCALAR PROCESSING

标量处理机

在同一时间内只处理一条数据。

LOOK-AHEAD

先行技术

通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。

PVP

向量型并行计算处理机

以流水线结构为主的并行处理器。

SMP

对称多处理机系统

任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。MPP

大规模并行计算机系统

物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。

DSM

分布式共享存储系统

内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。

COW

机群系统

每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。

GCE

网格计算环境

利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。

CISC

复杂指令集计算机

通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。

RISC

精简指令集计算机

尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。

VMM

虚拟机监视器

作为软硬件的中间层,在应用和操作系统所见的执行环境之间。

SUPERCOMPUTER

超级计算机

数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。SVM

共享虚拟存储器

存储器虚拟化为一个共享的存储器,并提供单一的地址空间。

MAINFRAME

大型计算机

作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面。

COMPUTER SYSTEM ON CHIP

片上计算机系统

在单个芯片上集成的一个完整系统。

PARALLEL ARCHITECTURE INTO SINGLE CHIP

单片并行结构

在单个芯片上采用的并行体系结构

MOORE law

Moore定律

当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。

UMA

一致存储访问

采用集中式存储的模式,提供均匀的存储访问。

NUMA

非一致存储访问

内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块。

COMA

全高速缓存存储访问

采用分布式存储模式,通过高速缓存提供快速存储访问。

CC-NUMA

全高速缓存非一致性均匀访问

存在专用硬件设备保证在任意时刻,各结点Cache中数据与全局内存数据的一致性。NORMA

非远程存储访问

利用私有的存储器通过互联网络进行消息传递。

SHELL ARCHITECTURE

Shell结构

用专门定制的Shell电路将商用微处理器和节点的其它部分(包括板级Cache、局存、NIC 和DISK)连接起来。

PRAM

随机存取并行机器模型

共享存储的SIMD模型,假定存在一个容量无限大的共享存储器,有有限或无限个功能相同的处理器,且他们都具有简单的算术运算和逻辑判断功能,在任何时刻处理器都可以通过共享存储单元相互交互数据。

BSP

整体同步并行计算模型

分布存储的MIMD计算模型,将处理器和路由器分开,强调了计算任务和通信任务的分开。采用障碍同步的方式以硬件实现的全局同步是在可控的粗粒度级,从而提供了执行紧耦合同步式并行算法的有效方式。

LOG P

分布存储的、点到点通信的多处理机模型

L (Latency) 表示信息从源到目的地所需的时间;O (Overhead) 表示处理器接受或发送一条消息所需额外开销,并且在此期间处理器不能做作任何操作;G (Gap)表示处理器连续进行两次发送或接收消息之间必须有的时间间隔;P (Processor) 表示处理器的数目。

2.Explain the Flynn classify and its semantics.

1)单指令流单数据流(Single Instruction Stream Single Data Stream,SISD)

SISD其实就是传统的顺序执行的单处理器计算机,其指令部件每次只对一条指令进行译码,并只对一个操作部件分配数据。

2)单指令流多数据流(Single Instruction Stream Multiple Data Stream,SIMD)

SIMD以并行处理机为代表,结构如图,并行处理机包括多个重复的处理单元PU1~PUn,由单一指令部件控制,按照同一指令流的要求为它们分配各自所需的不同的数据。

3)多指令流单数据流(Multiple Instruction Stream Single Data Stream,MISD)

MISD的结构,它具有n个处理单元,按n条不同指令的要求对同一数据流及其中间结果进行不同的处理。一个处理单元的输出又作为另一个处理单元的输入。

4)多指令流多数据流(Multiple Instruction Stream Multiple Data Stream,MIMD)MIMD的结构,它是指能实现作业、任务、指令等各级全面并行的多机系统,多处理机就属于MIMD。

3.Where are the difficulties of Parallel Processing? What is ‘Parallel(并行)、concurrent

(并发)and Simultaneous(同时)’separately?

1)并行处理的难度:

a)处理单元的多少以及其功能的强弱;

b)处理单元的连接方式以及其处理结构;

c)同步与互斥的实现;

d)处理单元之间的数据传输;

e) 不同存储层次上的数据一致性。 2) 并行:两个或多个事件在同一时刻发生;

并发:两个或多个事件在同一时间间隔内发生; 同时:两个或多个事件在同一时间内完成。

4. Assume that a system component be speeded to 10 times ,Its past processing time

accounts for 40% of the system ,how much will be the system performance improved ?

1

;40%,101Sp f n f

f n =

==-+

1

1.56250.4

10.410

Sp ==-+

5. Please draw the memory Hierarchy chart 。

6. Explaining Conceptions

RISC

精简指令集计算机

尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。 CISC

复杂指令集计算机

通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。

VLIW

超大规模集成电路

指几毫米见方的硅片上集成上万至百万晶体管、线宽在1微米以下的集成电路。

SUPER-SCALAR

超标量

通过内置多条流水线来同时执行多个处理器,其实质是以空间换取时间。

SUPER-PIPELINE

超流水线

通过细化流水、提高主频,使得在一个机器周期内完成一个甚至多个操作,其实质是以时间换取空间。

SUPER-SCALAR-SUPER-PIPELINE

超标量超流水线

在一个基本时钟周期内能够分时发送多组指令,并且每组指令又可包涵一条或多条指令。IPC

单位时钟周期内所执行的指令数

SINGLE ISSUE

单发射结构

在一个时钟周期内只从存储器中取出一条指令,并且只对一条指令进行译码,只执行一条指令,只写一个运算结果。

MULTIPLE ISSUE

多发射结构

在一个基本时钟周期内同时从指令Cache中读出多条指令,同时对多条指令进行译码。OOO

乱序执行结构

能够不按照程序提供的顺序完成计算任务,是一种加快处理器运算速度的架构。

Multi-Threading

多线程

同时运行多个轻量级任务。

7.In ideal case, please give the performances for SUPER-SCALAR, SUPERPIPELINE,

SUPER-SCALAR-SUPER-PIPELINE, and give N=8 examples and their average IPC.

1)性能

超标量性能:S(m,1) = T(1,1) / T(m,1) = (K+N-1) / (K+(N-m)/m)

超流水性能:S(1,n) = T(1,1)/T(1,n) = n(k+N-1) / nk+N-1

超标量超流水性能:S(m,n) = T(1,1)/T(m,n) = (K+N-1) / (K+(N-m)/(mn))

其中,N表示不相关指令数,m表示指令的并行度,n表示指令流水线的并行度,K表示指令流水线的阶段数

2)N=8的周期图

超标量:

F- D- E- W

F- D- E- W

F- D- E- W

F- D- E- W

F- D- E- W

F- D- E- W

F- D- E- W

F- D- E- W

1 2 3 4 5 6 7

IPC = 8 /7 = 1.14

超流水:

F |D |E |W | | | |

F | D |E| W| | | |

|F |D |E |W | | |

| F| D | E| W| | |

| |F |D |E |W | |

| | F| D | E| W| |

| | |F |D |E |W |

| | | F| D | E| W|

1 2 3 4 5 6 7

IPC = 8 / 7 = 1.14

超标量超流水:

F |D |E |W | |

F |D |E |W | |

F | D |E| W| |

F | D |E| W| |

|F |D |E |W |

|F |D |E |W |

| F | D | E | W|

| F | D| E | W|

1 2 3 4 5

IPC = 8 / 5 = 1.60

8.Please describe the CPU technology in recent years, and give an example to illustrate

their technical parameters.

1)Hyper threading

Threads are independent parts of a computer program. Multi-tasking operating systems (e.g. Windows or Linux) work by allocating each thread a certain amount of "CPU time" in which to execute some instructions. This means that they can run dozens of programs "at the same time".

Multi-processor systems allow the OS to literally run two or more program threads simultaneously on different CPUs. This means that there is less competition for CPU time and therefore the computer should operate more quickly. However, multiprocessor systems are

expensive.

Hyper-Threading Technology (HTT) was introduced by Intel to give a cost-effective compromise. By duplicating some of the parts of the main core it pretends to be two processors. This gives a small speed increase (up to 30%).

2)Dual Core & multi-core

Dual core designs have two cores on a single chip, sometimes sharing L2 cache memory and always sharing bus interfaces. A dual-core chip is not as good as having two processors; however it gives typically 25%–75% faster performance than a single core processor.

The Athlon 64 X2 and Pentium D were the first dual-core processors released for the PC, followed by the Intel Core Duo, Core 2 Duo and AMD Athlon FX60. Intel has released a four-core Core 2 Quadro processor.

core name process processor socket typical L2 cache Willamette 180nm Pentium 4 478 256 KB

Northwood 130nm Celeron 478 128 KB

Prescott 90nm Celeron D / P4 478 256 KB / 1MB Prescott 2M 90nm Pentium 4 (6xx) 775 2 MB

Cedar Mill 65nm Pentium 4 (6xx) 775 2 MB

Smithfield 90nm Pentium D (8xx) 775 2 MB

Presler 65nm Pentium D (9xx) 775 4 MB

Yonah 65nm Core Duo / Solo 775 4 MB

Conroe 65nm Core 2 Duo 775 4 MB

core name process processor socket typical L2 cache Thoroughbred 130nm Athlon XP A 256 KB Barton 130nm Athlon XP A 512 KB

Palermo 90nm Sempron 754 128 KB

Clawhammer 130nm Athlon 64 754 1 MB

Newcastle 130nm Athlon 64 754 512 KB

Sledgehammer 130nm Athlon 64/FX 939 1 MB

Winchester 90nm Athlon 64 939 512 KB

Venice 90nm Athlon 64 939 512 KB

Manchester 90nm Athlon 64 X2 939 1 MB

Toledo 90nm Athlon 64 X2 939 2 MB

The diagram below shows the architecture of a Conroe core:

9.Please give computing trace of a[i+7]=b[j+1]+c[k+8]+d[m+10] for T9000

a[i+7]=b[j+1]+c[k+8]+d[m+10]

1 |

2 |

3 |

4 |

5 |

6 |

7 |

8 |

9 |…Fj | | | | | | | | | Fb | | | | | | | | | |Fb[j] | | | | | | | |

| |Fb[j+1] | | | | | | |

|Fk | | | | | | | |

|Fc | | | | | | | |

| |Fc[k] | | | | | | |

| | |Fc[k+8] || | | | |

| | | |Eadd | | | | |

| |Fm | | | | | | |

| |Fd | | | | | | |

| | |Fd[m] | | | | | |

| | | |Fd[m+10]| | | | |

| | | | |Eadd | | | |

| | |Fi | | | | | |

| | |Fa | | | | | |

| | | |Fa[i] | | | | |

| | | | | | |Wa[i+7] | | 2 |3 |4 |4 |3 |1 | |1 | |

10.How to solve the multicore memory wall problem?

解决“内存墙”问题包括内存带宽和内存等待时间两大基本途径,前者的应对方法是采用提高内存总线位宽和传输倍率的技术;后者是采用多级缓存和数据预取、多线程和乱序执行等技术。其中,数据预取有硬件预取和软件预取。硬件数据预取技术不同于指令的预取,主要包括顺序预取(Sequential Prefetching)、流缓存(Stream Buffers)、步幅预取(Stride Prediction based Prefetching)、Markov预取和混合方法等。软件数据预取技术是一个通过在计算和访问储时间上交叉的方法来隐藏存储访问延时的延迟容忍技术,适宜于提高多线程应用程序的性能。

而对于多核“内存墙”问题目前还不能从根本上有所突破,从而将不大可能继续大幅度增加处理器的核心数量来提升处理性能,而需要另辟蹊径满足日益增长的对高性能计算的需求。随着“多线程”、“多核处理器”、“多核内存”等技术的进一步发展,也许可以找到解决“内存墙”问题的一种可能途径。

11.Simple computer design test (10 points)

Supposed there are a simple CPU with A15-A0,D7-D0,read and write, an register and Tri-state buffers for I/O device, a 8k*8 ROM with A12-A0,D7-D0,CE and OE, and a 8k*8 RAM with A12-A0,D7-D0,CE,RD and WR. Please you design the circuit of a simple computer.

处理器CPU地址宽度为16位,数据宽度为8位,采用独立编址方式:

ROM+RAM地址分配如下:

0x0000~0x1FFF对应8k*8ROM,地址空间为8kB;

0x2000~0x3FFF对应8k*8RAM,地址空间为8kB。

I/O Device地址分配如下:

0x0~0x3对应I/O device,地址空间为4B。

AR

DR

I/O Device

D0D1D2D3D4D5D6D7

A0A1A2A3A4A5A6A7A8A9A10A11A12A13A14A15D0D1D2D3D4D5D6D7

D0D1D2D3D4D5D6D7

D0D1D2D3D4D5D6D7

A0A1A2A3A4A5A6A7A8A9A10A11A12A13

A0A1A2A3A4A5A6A7A8A9A10A11A12A13

A14 A15

R Buffer

CPU

数据总线

控制总线地址总线

PC ALU R1……Rn 8k*8ROM

8k*8RAM

A

B clk

12. There is a program in a 40MHz processor ,its number of integer arithmetic instructions

is 45000 and the clock is 1.The number of instructions with data operations is 32000 and the clock is 2. The number of float instructions is 15000 and its clock 2. The number of instructions such as JMP etc is 8000 and its clock is 2.Please give its CPI 、MIPS and the CPU execution time.

()45000132000215000280002 1.55()4500032000150008000

CPI CPI ?+?+?+?==+++

401000000

25.8()1.55

MIPS MIPS ?=

=

()450001320002150002800021 3.875()401000000

CPU ET ms =

=??+?+?+??

13. If the communication cost in a SP2 machine is t (m )=46+(0.035)m, please give

its (渐进带宽 )r ∞ and its (半峰值信息长度) m1/2.

1

28.57(/)0.035

r MB s ∞=

= ()1/24628.57/1314.22m s MB s B μ=?=

14. If a N*N matrix A is multiplied by a N*N matrix B, its time is T1=CN3 s, but the

execution time in a machine with n nodes is Tn=(CN3/n+bN2/square-root(N)) s ,here,C,N and b is a constant. Please you give its Speedup under fix-workload, fix-time and fix-memory usage.

由313

2

11n T CN CN T bN n n

N

αα==-++ 可知()1nb n CN N α=- ,因此 固定负载:12T nCN N

Sp T CN N nb

=

=

+ 固定时间:(1)nCN N nb

Sp n CN N

αα-=+-=

存储受限:22(1)()[()]()

(1)()[()]()G n bn CN N b n CN N nG n Sp G n bn CN N b n CN N G n n

αααα+-+--==-+--+

15. n : the total cores of the multi-processer; r : the total cores of a processer; perf(r) : the

performance of a processer. 异构:

r r

公式:

1

1()2()2Sp perf r pref r n r

α

α

=

-+

?+-

16. Concepts

State network(静态网络)

指固定连接的一类网络,在程序运行期间,该网络点到点的连接保持不变。 Dynamic network(动态网络)

在程序运行期间,网络中点到点的连接可以动态的变化。 crossbar(交叉开关)

又称路由器,用于建立交叉网络,可以有程序控制动态设置其处于“开”或“关”的状态,能提供所有源与目的之间的动态连接。 Multi-buses(多总线)

指在计算机体系结构中包含多条总线,一条总线包括数据总线、地址总线和控制总线。

17. Draw N=25 MESH

6

1817

16

1112

13

14

7

89

4

321

19

2322

2124

5

100

1520

9

18. please give the single cube function by using SHUFFLE-EXCHANGE NETWORK 已知:

12101210()0()n n n n ex b b bb cube b b bb ----???=??? 12102101()n n n n sh b b bb b bb b ----???=???

故有:

2102102100()()cube b bb b b b ex b bb ==

2102100210211022101()()(())((()))(((())))

cube b bb b bb sh b b b sh ex b b b sh ex sh bb b sh ex sh sh b bb =====2102102()(((())))

cube b bb sh sh ex sh b bb = ???

12101210()((((((()))))))n n n n i

n i

cubei b b b b sh sh ex sh sh b b b b -----???=?????????

19. How much have the different bus Arbitrate Alogrithms ? What is its merit and

demerit? 仲裁算法主要有:

DAISY CHAIN ;ROUND ROBIN ;ROTATING DAISY CHAIN ;LRU ;FCFS ;POLLING 。 DAISY CHAIN :

优点:离总线控制器越近的节点机优先权越高;控制简单。

缺点:各个节点机机会不均等,最重要的节点应该离总线控制器最近。 ROUND ROBIN :

优点:以转圈方式依次给每个节点机分配固定长度的时间片;允许在时间片内发送数据;机会均等,负载平衡。

缺点:等待时间较长,影响总线通信效率。 ROTA TING DAISY CHAIN :

优点:有较短的平均等待时间,并可使系统中的处理机有均等机会处理总线。 缺点:控制逻辑较为复杂。 LRU :

优点:最长时间没有使用总线的节点机具有最高优先权; 每次总线周期结束,确定下一个最高优先权的节点机。

缺点: 假定对实体的访问具有局部特性,当访问模式没有局部特性的时候,算法的效率就会下降。 FCFS :

优点:按平均工作时间计算,性能好。 缺点:算法复杂,有队列。 POLLING :

优点:将ROUND ROBIN 中批准线用一组节点机地址线所代替;将ROUND ROBIN 中批准线用一组节点机地址线所代替,该方法结构简单,易于实现。 缺点:当节点数目较大时通信性能差。

20. THERE ARE P1,P2,P3,P4 AND M1,M2,M3,M4,PLEASE USE 2*2 CROSSBAR

SWITCH BOX TO DESIGN A CONNECTION NETWORK Of P1~M2,P2~M4,P3~M1,P4~M3.

P1P2P4

P3M1M2M4

M3

21. WHAT IS DS-LINK?

DS-LINK 协议分为3级:Bit level ; Token level ;Packet level 。

Bit level

0 0

1 1 1

DATA

STROBE

Token level

P 0 1 BYTE DATA P 1 0 1P 1 1 0

EOP EOM

Packet level

H 0 ~ 32 BYTE DATA EOM H 32 BYTE DATA EOP H 1 ~32 BYTE DATA EOM

SHORT:LONG:

ACK:

H

EOP

H-head

22. WHAT IS DIFFERENCE BETWEEN MESSAGE-PASSING AND SHARED

MEMORY? 消息传递可以通过网络使驻留在不同节点上的进程相互通信。然而,这些进程均有分开的地址空间。一个进程不能读写另一个进程中的数据,只能通过相互收发消息进行通信。

共享内存可以驻留在个处理器的上的进程读写公共存储器中的数据相互通信。然而,数据驻留在单一共享地址的空间中,不能运行在多个并行计算机系统中。

23. WHAT ARE WORMHOLE COMMUNICATION AND ITS PERFORMANCE? 虫洞通行是将信包进一步分成更小的片(数据片和包头)进行传输。在传输过程中,中间节点只备有很小的片缓冲区,一旦收到包头,就传至下一个节点。同一信包中的所有片一同一流水线的方式穿越网络,由包头牵引着数据片顺序前进。

设ts 为启动时间,th 为包头在节点的延迟,tw 为传输每个字的时间,对m 长的信包,穿越l 条链路时有:

Tcomm (CT )= ts +m tw + l th 采用存储转发的通信方式有: Tcomm (SF )= ts +(m tw +th )l

Tcomm (CT )- Tcomm (SF )=(1- l) m tw <0

显然虫洞通信所用的时间比存储转发所用的时间要短。

24. Explaining that Myrinet, HiPPI, FDDI, ATM, SCI, and 100BaseT 。

Myrinet

一项经济高效、高性能的分包通信和交换技术,被广泛应用于工作站、PC 、服务器、刀片服务器或单板计算机的互联集群。 它以一种经济的方式实现高性能以及高可用性。 High Performance Parallel Interface (HIPPI)

高性能并行接口是由Los Alamos 国家实验室(LANL)研制出来的,其数据传输率为800Mbps 或1600Mbps 。该接口是点对点的,这意味着它可以在两个设备之间建立连接。 Fiber distributed data interface (FDDI)

光纤分布式数据接口是一种速率为100Mb/s ,采用多模光纤作为传输媒介的高性能光纤令牌环(token ring)局域网。

Asynchronous Transfer Mode (A TM )

异步传输模式是以信元为基础的一种分组交换和复用技术,它是一种为了多种业务设计的通用的面向连接的传输模式。

Sca1ab1e Coherence Interface (SCI)

可扩展一致性接口将通常的底板总线扩展成全双工,点到点的互连结构,并提供分布共享存储器一致的高速缓存映象。 100BaseT

快速以太网为IEEE 802.3标准,可通过双扭线或光纤进行快速传输,速率可达100Mb/s;沿用10BaseT 的IEEE 802.3 CSMA/CD 的MAC 协议,并具有同样的星型拓扑结构;提供三种物理介质:100BaseT-TX 支持5类UTP 和1类STP 上的传输;组网方便,它和一般以太网一样,可由工作站(高档微机),网卡,集线器,中继器,传输介质和服务器等组成分布式并行计算环境。

25. In a supercube network with wormhole communication, if there is a pair opposite

one-way link between any two neighbour nodes, please try to proof that the network cannot be deadlocked when looking for path 在n 维超立方体中,把1个n 位2进制数k 的结点定义为nk ,它有n 个输出通道,每维1个通道,表示为C0k ,…,C(n-1)k ,E 立方体按维的增序来寻径路由。nl 预定的消息到达结点nk 被送到通道Cik (其中I 是确定k 与l 不同的最低位),消息按维的增序路由,增加通道下标不会在通道附图中产生回路,故E 立方体不会死锁。

26. Please delete the μ and λ by using , then draw the function figure when m=0.5,

ρ =0.2(画出其函数关系图)()()000())/1(H n nmH n n m H μλμλ=--+-

()()00()()/1c H n nmH n n m H μαλμλ=--+-

由/ρλμ= 得

()()000(1)(1/1)H n nmH n n m H ρρ=--+- ()()00(1)(1/1)c H n nmH n n m H αρρ=--+-

令m = 0.5, ρ =0.2知

()200000.50.2/0.80.5(0.125 1.12(5))1H n nH n nH n n H =-+=-+,如下图:

0.511.522.530

1

2

3

4

56

7

8

9

10

n

H 0(n )

()20000.50.2/0.80.5(0.12(5 1.125)1)c H n nH n nH n n H αα=-+=-+,如下图:

01230

1/a

2/a

3/a

4/a

5/a 6/a

7/a

8/a

9/a

10/a

n

H c (n )

27. Descript MSI protocol and MESI protocol.

MSI 三态写回无效协议(modified ,shared ,invalid )包括一下状态: 无效I 状态:该状态说明这个cache 行是无效的。

共享S 状态:它意味着该块在高速缓存中未被修改过,主存中是最新的,在其他高速缓存中可能有也可能没有该块的拷贝

修改M 状态:它意味着只有该高速缓存中有该块的最新拷贝,主存中的拷贝是过时的,在其他高速缓存中没有该块的有效拷贝。

MESI 协议是一种被广泛使用的cache 一致性和内存一致性协议。它是最常见的支持写回cache 的协议。每一个cache 行都被标记为以下四种状态之一:

修改(Modified):该cache 行只存在于当前的cache 中,并且是dirty 的,和内存中的值相比它是已经被修改过的。在允许任何其他读操作之前,cache 需要将数据写回到主存。写回将该行的状态变为独占(Exclusive)。

独占(Exclusive):cache 行只存在于当前的cache 中,但却是clean 的;它和主存中的数据是一致的。在任何时刻,回应一个读请求,它可能被改变为共享状态;同样的,当对它进行写操作时,可以被变成修改状态。

共享(Shared):该状态说明这个cache 行可能被存储在系统中其他的cache 中,并且是clean 的,和主存中的内容是一致的。这个cache 行可以在任何时候被丢弃。

无效(Invalid):该状态说明这个cache 行是无效的。

28. What are the differences about MPP and SMP?

SMP (Symmetric Multi Processing),对称多处理系统内有许多紧耦合多处理器,在这样的系统中,所有的CPU 共享全部资源,如总线,内存和I/O 系统等,操作系统或管理数据库的复本只有一个,这种系统有一个最大的特点就是共享所有资源。

MPP (Massively Parallel Processing),大规模并行处理系统,这样的系统是由许多松耦合的处理单元组成的,要注意的是这里指的是处理单元而不是处理器。每个单元内的CPU 都有自己私有的资源,如总线,内存,硬盘等。在每个单元内都有操作系统和管理数据库的实例复本。这种结构最大的特点在于不共享资源。

通常情况下,MPP 系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP 要差一点,但是这也不是绝对的,因为MPP 系统不共享资源。 29. Which is the Consistency Snapshot for a 、b 、c and d ?

a

b

c

d

x

y

z

P

Q

R

m

由上图知,a 是一致快照。 30. What is SSI?

单系统映象(Single-system image ,SSI )是分布式计算的一种模式,使用一个多网络的通用接口,分布式数据库,或者多个服务器,但对用户而言是一个系统。换句话说,该操作系统环境由系统中的所有节点共享。

其基本特征是单一系统、单一控制、对称性、位置透明。采用SSI 的主要目的,是使机群的使用、控制和维护似乎和一台工作站一样。

单一系统映像包括单一入口点、单一文件层次结构、单一I/O 空间、单一网络、单一作业管理系统、单一存储空间和单一进程空间。 31. What is Computer Cluster?

计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。 32. Please explain the difference between MPP and Cluster.

MPP 物理和逻辑上均是分布内存;能扩展至成百上千个处理器(微处理器或向量处理器);采用高通信带宽和低延迟的互联网络 (专门设计和定制的);一种异步的MIMD 机器;程序系由多个进程组成,每个都有其私有地址空间,进程间采用传递消息相互作用。

Cluster 每个节点都是一个完整的计算机;各个节点通过高性能网络相互连接;网络接口和I/O 总线松耦合连接;每个节点有完整的操作系统。

33.Please try to design a CoPs.

设计PC 集群系统拓扑结构如下:

硬件结构及配置

由九台普通PC 机组成,每台PC 机的硬件配置如下:

CPU:Intel—PIV1.5G

主板:华硕(ASUS)

硬盘:Western Digital 40G / 7200RPM

内存:SamSung 512M RAMBUS 内存

网卡:3COM 3C509 100M (每台机器两块网卡)

交换机:CISCO 2900 XL 系列交换机(24 口/100M)

采用一个主节点,八个从节点,通过商用网络通讯的方式实现各并行节点通讯。各节点之间的网络连接都采用100M 超五类双绞线,同时每个从节点都安装了两块100M 的网卡(主节点安装三块网卡,其中一块网卡用于连接本地局域网),节点发送和接收消息各自采用一块网卡,以提高各节点之间的通讯速度,从而提高并行计算的效率。

软件结构及配置

每个节点的操作系统采用linux 的redhat7.3

系统网络配置如下:

主控节点的主机名称为:node1 ,IP地址为:192.168.0.1

运算节点的主机名称为:node2~node9, IP地址为:192.168.0.2~192.168.0.9

集群域为:localdomain

通过操作系统,启动rlogin、rsh、nfs、telnet、ftpd 服务。

修改/etc/hosts 文件,增加如下内容:

#master server

192.168.0.1 https://www.docsj.com/doc/098134419.html, node0

#client nodes

192.168.0.2 node1. https://www.docsj.com/doc/098134419.html, node1

192.168.0.3 node2. https://www.docsj.com/doc/098134419.html, node2

192.168.0.4 node3. https://www.docsj.com/doc/098134419.html, node3

192.168.0.5 node4. https://www.docsj.com/doc/098134419.html, node4

192.168.0.6 node5. https://www.docsj.com/doc/098134419.html, node5

192.168.0.7 node6. https://www.docsj.com/doc/098134419.html, node6

192.168.0.8 node7. https://www.docsj.com/doc/098134419.html, node7

192.168.0.9 node8. https://www.docsj.com/doc/098134419.html, node8

计算机体系结构试题库—简答题

计算机体系结构试题库 简答题(100题) 1.简述CISC结构计算机的缺点。 答: ●在CISC结构的指令系统中,各种指令的使用频率相差悬殊。据统计,有20%的指 令使用频率最大,占运行时间的80%。也就是说,有80%的指令在20%的运行时 间内才会用到。 ●CISC结构指令系统的复杂性带来了计算机体系结构的复杂性,这不仅增加了研制 时间和成本,而且还容易造成设计错误。 ●CISC结构指令系统的复杂性给VLSI设计增加了很大负担,不利于单片集成。 ●CISC结构的指令系统中,许多复杂指令需要很复杂的操作,因而运行速度慢。 ●在CISC结构的指令系统中,由于各条指令的功能不均衡性,不利于采用先进的计 算机体系结构技术(如流水技术)来提高系统的性能。 2.RISC结构计算机的设计原则。 答: A.选取使用频率最高的指令,并补充一些最有用的指令; B.每条指令的功能应尽可能简单,并在一个机器周期内完成; C.所有指令长度均相同; D.只有load和store操作指令才访问存储器,其它指令操作均在寄存器之间进行; E.以简单有效的方式支持高级语言。 3.影响现代微处理器主频提升的主要原因由哪些? 答:线延迟、功耗。 4.指令集格式设计时,有哪三种设计方法? 答:固定长度编码、可变长编和混合编码)三种设计方法。

5.简述存储程序计算机(冯·诺依曼结构)的特点。 答: (1)机器以运算器为中心。 (2)采用存储程序原理。 (3)存储器是按地址访问的、线性编址的空间。 (4)控制流由指令流产生。 (5)指令由操作码和地址码组成。 (6)数据以二进制编码表示,采用二进制运算。 6.在进行计算机系统设计时,一个设计者应该考虑哪些因素对设计的影响? 答: 在进行计算机系统设计时,设计者应该考虑到如下三个方面因素的影响: ●技术的发展趋势; ●计算机使用的发展趋势; ●计算机价格的发展趋势。 7.简述程序翻译技术的特点。 答: 翻译技术是先把N+1级程序全部变换成N级程序后,再去执行新产生的N级程序,在执行过程中N+1级程序不再被访问。 8.简述程序解释技术的特点。 答: 解释技术是每当一条N+1级指令被译码后,就直接去执行一串等效的N级指令,然后再去取下一条N+1级的指令,依此重复进行。 9.经典体系结构的定义是什么? 计算机体系结构是机器级程序员所看到的计算机的属性,即概念性结构与功能特性。10.“线延迟墙”指的是什么?

计算机系统结构三四章作业及答案

3.1 简述流水线技术的特点。(1) 流水线把一个处理过程分解为若干个子过程,每个子过程由一个专门的功能部件来实现。因此,流水线实际上是把一个大的处理功能部件分解为多个独立的功能部件,并依靠它们的并行工作来提高吞吐率。(2) 流水线中各段的时间应尽可能相等,否则将引起流水线堵塞和断流。(3) 流水线每一个功能部件的前面都要有一个缓冲寄存器,称为流水寄存器。(4) 流水技术适合于大量重复的时序过程,只有在输入端不断地提供任务,才能充分发挥流水线的效率。(5) 流水线需要有通过时间和排空时间。在这两个时间段中,流水线都不是满负荷工作。 3.2 解决流水线瓶颈问题有哪两种常用方法?答:细分瓶颈段与重复设置瓶颈段 3.3 有一条指令流水线如下所示: (1 用两给出条指 (1) (24? 变八级流水线(细分) ? 重复设置部件 )(ns 85 1 T n TP 1pipeline -== 3.4 有一个流水线由4段组成,其中每当流过第三段时,总要在该段循环一次,然后才能流到第4段。如果每段经过一次所需的时间都是△t ,问: (1)当在流水线的输入端连续地每△t 时间输入一个任务时,该流水线会发生什么情况? (2)此流水线的最大吞吐率为多少?如果每2△t 输入一个任务,连续处理10个任务时,其实际吞吐率和效率是多少? (3)当每段时间不变时,如何提高流水线的吞吐率?人连续处理10个任务时,其吞吐率提高多少? 解:(1)会发生流水线阻塞情况。

(2) (3)重复设置部件 吞吐率提高倍数= t t ??2310 75 =1.64 3.5 有一条动态多功能流水线由5段组成,加法用1、3、4、5段,乘法用1、2、5段,第2段的时间为2△t ,其余各段的时间均为△t ,而且流水线的输出可以直接返回输入端或暂存于相应的流水线寄存器中。现在该流水线上计算 ∏=+4 1 )(i i i B A ,画出时空图,并计算其吞吐率、加速比和效率。 +B 4;再计算由图可见,它在18个△t 时间中,给出了7个结果。所以吞吐率为: 如果不用流水线,由于一次求积需3△t ,一次求和需5△t ,则产生上述7个结果共需(4×5+3×3)△t =29△t 。所以加速比为: 该流水线的效率可由阴影区的面积和5个段总时空区的面积的比值求得: 3.6 在一个5段流水线处理机上,各段执行时间均为△t,需经9△t 才能完成一个任务,其预约表如下所示。 段23 时间 入 A 1 B 1 A 2 B 2 A 3 B 3 A 4 B 4 A B C D A × B C ×D

计算机体系结构解

计算机体系结构解

————————————————————————————————作者:————————————————————————————————日期:

第一章计算机组成原理 本部分要求掌握计算机方面的基础知识,包括计算机的发展、计算的系统组成、基本组成和工作原理、计算机的数制数据表示以及运算校验、指令系统以及计算机系统的安全等基础性的知识。内容多而且复杂,尤其是有关计算机硬件方面的内容,很细而且灵活性不高,知识量相当大,掌握这部分一定要多下功夫,学会取舍、把握重点、抓住要害。 1.1 考试大纲及历年考题知识点 1.1.1 大纲要求 考试要求: 1 掌握数据表示、算术和逻辑运算; 2 掌握计算机体系结构以及各主要部件的性能和基本工作原理考试范围 1 计算机科学基础 1.1 数制及其转换二进制、十进制和十六进制等常用制数制及其相互转换 1.2 数据的表示 ?数的表示(原码、反码、补码、移码表示,整数和实数的机内表示,精度和溢出)?非数值表示(字符和汉字表示、声音表示、图像表示) ?校验方法和校验码(奇偶校验码、海明校验码、循环冗余校验码) 1.3 算术运算和逻辑运算 ?计算机中的二进制数运算方法 ?逻辑代数的基本运算和逻辑表达式的化简 2.计算机系统知识 2.1 计算机系统的组成、体系结构分类及特性 ?CPU 和存储器的组成、性能和基本工作原理 ?常用I/O 设备、通信设备的性能,以及基本工作原理 ?I/O 接口的功能、类型和特性 ?I/O 控制方式(中断系统、DMA、I/O 处理机方式) ?CISC/RISC,流水线操作,多处理机,并行处理 2.2 存储系统 ?主存-Cache 存储系统的工作原理 ?虚拟存储器基本工作原理,多级存储体系的性能价格 ?RAID 类型和特性 2.3 安全性、可靠性与系统性能评测基础知识 ?诊断与容错 ?系统可靠性分析评价 ?计算机系统性能评测方式 1.2 计算机科学基础 1.2.1 数制及其转换 1、R 进制转换成十进制的方法按权展开法:先写成多项式,然后计算十进制结果. 举例: (1101.01)2=1×2^3+1×2^2+0×2^1+1×2^0+ 0×2^-1+1×2^-2 =8+4+1+0.25=13.25 (237)8=2×8^2+3×8^1+7×8^0 =128+24+7=159 (10D)16=1×16^2+13×16^0=256+13=269

计算机体系结构期末考试试题及答案

填空题 1.从2002年以来,计算机性能的年增长率下降到了约30%。其主要原因是:①大功耗问题; ②可以进一步有效地开发的指令级并行性已经很少;③存储器访问速度的提高缓慢。 2. 可移植性是指一个软件可以不经修改或者只需少量修改就可以由一台计算机移植到另一台计算机上运行。实现可移植性的常用方法有3种:系列机,模拟和仿真,统一高级语言。 2.通用寄存器型指令集结构计算机在灵活性和提高性能方面有明显的优势。主要体现在①寄存器的访问 速度比存储器快;②对编译器而言,能更加容易有效地分配和使用寄存器;③寄存器可以用来存放变量。 3.MIPS的数据寻址方式只有立即数寻址和偏移量寻址。 4.向量处理机的结构由所采用的向量处理方式决定。有两种典型的结构;存储器-存储器型结构和寄存器-寄存器型结构。 5.Cache-主存层次的工作由硬件实现,对系统程序员是透明的。 6.降低Cache不命中率最直接的方法是增加Cache的容量。不过,这种方法不但会增加成本,而且还可能增加命中时间,这种方法在片外Cache中用得比较多。 7.大多数磁盘阵列的组成可以由以下两个特征来区分:数据交叉存放的粒度、冗余数据的计算方法以及在磁盘阵列中的存放方式。 8.时延和带宽是用来评估互连网络性能的两个基本指标。时延包括通信时延和网络时延。 9.计算机系统可分为SISD、SIMD、MISD和MIMD四类,许多早期并行处理机是SIMD计算机,近年来,MIMD已经成为通用多处理机系统结构的选择。这是因为MIMD具有灵活性,并且MIMD 能充分利用现有微处理器的性价比优势。 判断题 1.从计算机语言的角度,系统结构把计算机系统按功能划分成多级层次结构,其中,第2级是操作系统虚拟机,第3级是汇编语言虚拟机。(错) 2.计算机系统中提高并行性的3种途径中,资源重复是在并行性概念中引入时间因素,加快硬件周转而赢得时间。(错) 3.指令集结构中采用多种寻址方式可能会增加实现的复杂度和使用这些寻址方式的指令的CPI。(对) 4.指令条数多,通常超过200条,是设计RISC的原则之一。(错) 5.根据流水线中各功能段之间是否有反馈回路,可把流水线分为线性流水线和非线性流水线。(对) 6.在多级存储体系中,“主存一辅存”层次的存储管理实现主要由软件实现。(对) 7.失效率和平均访存时间都可评价存储系统的性能,它们都和机器的硬件速度有关。(错) 8.RAID的特点有容量大,速度快、可靠性高,同时保存数据无冗余信息。(对) 9.在多处理机的互连网络中,交叉开关网络属于动态互连网络。(对) 10.机群是一种价格低廉、易于构建、可扩缩性极强的并行计算机系统。(对) 名词解释 1.RISC 精简指令集计算机是一种执行较少类型计算机指令的微处理器 2.请求字优先 调块时,首先向存储器请求CPU所要的请求字。请求字一旦到达,就立即送往CPU,让CPU继续执行,同时从存储器调入该块的其余部分。 3.单一系统映像

计算机系统结构网上作业

计算机系统结构作业参考答案 一、 1、试述现代计算机系统的多级层次结构。 计算机系统具有层次性,它由多级层次结构组成。从功能上计算机系统可分为五个层次级别:第一级是设计级。这是一个硬件级,它由机器硬件直接执行。 第二级是一般机器级,也称为机器语言级。它由微程序解释系统.这一级是硬件级。 第三级是操作系统级,它由操作系统程序实现。这些操作系统由机器指令和广义指令组成,这些广义指令是操作系统定义和解释的软件指令。这一级也称混合级。 第四级是汇编语言级。它给程序人员提供一种符号形式的语言,以减少程序编写的复杂性。这一级由汇编程序支持执行。 第五级是高级语言级。这是面向用户为编写应用程序而设置的。这一级由各种高级语言支持。 2、试述RISC设计的基本原则和采用的技术。 答:一般原则: (1)确定指令系统时,只选择使用频度很高的指令及少量有效支持操作系统,高级语言及其它功能 的指令,大大减少指令条数,一般使之不超过100条; (2)减少寻址方式种类,一般不超过两种; (3)让所有指令在一个机器周期内完成; (4)扩大通用寄存器个数,一般不少于32个,尽量减少访存次数; (5)大多数指令用硬联实现,少数用微程序实现; (6)优化编译程序,简单有效地支持高级语言实现。

基本技术: (1)按RISC一般原则设计,即确定指令系统时,选最常用基本指令,附以少数对操作系统等支持最有用的指令,使指令精简。编码规整,寻址方式种类减少到1、2种。 (2)逻辑实现用硬联和微程序相结合。即大多数简单指令用硬联方式实现,功能复杂的指令用微程序实现。 (3)用重叠寄存器窗口。即:为了减少访存,减化寻址方式和指令格式,简有效地支持高级语言中的过程调用,在RISC机器中设有大量寄存嚣,井让各过程的寄存器窗口部分重叠。 (4)用流水和延迟转移实现指令,即可让本条指令执行与下条指令预取在时间上重叠。另外,将转移指令与其前面的一条指令对换位置,让成功转移总是在紧跟的指令执行之后发生,使预取指令不作废,节省一个机器周期。 (5)优化设计编译系统。即尽力优化寄存器分配,减少访存次数。不仅要利用常规手段优化编译,还可调整指令执行顺序,以尽量减少机器周期等。 3、试述全相联映像与直接映像的含义及区别 (1)全相连映像 主存中任何一个块均可以映像装入到Cache中的任何一个块的位置上。主存地址分为块号和块内地址两部分,Cache地址也分为块号和块内地址。Cache的块内地址部分直接取自主存地址的块内地址段。主存块号和Cache块号不相同,Cache块号根据主存块号从块表中查找。Cache保存的各数据块互不相关,Cache必须对每个块和块自身的地址加以存储。当请求数据时,Cache控制器要把请求地址同所有的地址加以比较,进行确认。 (2)直接映像 把主存分成若干区,每区与Cache大小相同。区内分块,主存每个区中块的大小和Cache 中块的大小相等,主存中每个区包含的块的个数与Cache中块的个数相等。任意一个主存块只能映像到Cache中唯一指定的块中,即相同块号的位置。主存地址分为三部分:区号、块号和块内地址,Cache地址分为:块号和块内地址。直接映像方式下,数据块只能映像到Cache中唯一指定的位置,故不存在替换算法的问题。它不同于全相连Cache,地址仅需比较一次。 (3)区别: 全相连映像比较灵活,块冲突率低,只有在Cache中的块全部装满后才会出现冲突,Cache 利用率高。但地址变换机构复杂,地址变换速度慢,成本高。 直接映像的地址变换简单、速度快,可直接由主存地址提取出Cache地址。但不灵活,块冲突率较高,Cache空间得不到充分利用。 4. 画出冯?诺依曼机的结构组成?

计算机系统结构有详细答案

(仅供参考,不作为考试标准), 选择题分,每题分)2(30计算机系统结构设计者所关心的是________所看到的的计算机结构。 A)硬件设计人员B)逻辑设计人员 D)高级语言程序员C)机器语言或汇编语言程序员 。意________,应当注提系在计算机统设计时,为了高系统性能度的令执行速快A)加经常性使用指大的指令特B)要别精心设计少量功能强数的占减少在数量上很小比例的指令条C)要度D)要加快少量指令的速 。的问题统中因________而导致系主重叠寄存器技术要用于解决在RISC 流水线影A)JMP指令响保护令B)CALL指的现场问存储器不便来只C)有LOAD和STORE指令带的访度速器访问D)存储 ________ 效率高计为使流水算机运行要A)各过程段时间不同B)连续处理的任务类型应该不同 D)连续处理的任务数尽可能少C)连续处理的任务类型应该相同 栈型替是的________。换算法堆不属于B)近期最少A)近期最使用法久未用法 D)页面失效频率法出进C)先先法 象联组,相映的优点。是________象联全与相映相比B)块冲突概率低C)命中率高D)主存利用率小录A)目表高 是方好关相指除中叠次一重消令最的法________。B)设相关专用令指改准A)不修通路 令指条下析分后推C) 令指条下行执后推D) 流的用采,时关据数到,中作水操遇相________。有法办解决器译编化优A)用办的排新重令指过通,测检序法据数B)向定重技术 C)延迟转移技术 D)加快和提前形成条件码 经多级网络串联来实现全排列网络,只能用________。 A)多级立方体网络B)多级PM2I网络 D)上述多级混洗交换网络任何网络C) 序传送的________。是以虫蚀寻径流水方式在各寻径器是顺B)包A)消息C)片节D)字 ________ 处理机超标量作指条令部件个B) 只有一操期A)在一个时钟周内分时发射多多钟C)在一个时周期内同时发射条指令件有只一个取指部D)

计算机体系结构试题汇总

计算机系统结构 姓名:学号: 一、简答题(每小题10分,共20分) 1.简述使用物理地址进行DMA存在的问题,及其解决办法。 2.从目的、技术途径、组成、分工方式、工作方式等5个方面对同构型多处理机和异构型多处理机做一比较(列表)。 二、(60分)现有如下表达式: Y=a ×X 其中:X和Y是两个有64个元素的32位的整数的向量,a为32位的整数。假设在存储器中,X和Y的起始地址分别为1000和5000,a的起始地址为6000。 1.请写出实现该表达式的MIPS代码。 2.假设指令的平均执行时钟周期数为5,计算机的主频为500 MHz,请计算上述MIPS 代码(非流水化实现)的执行时间。 3.将上述MIPS代码在MIPS流水线上(有正常的定向路径、分支指令在译码段被解析出来)执行,请以最快执行方式调度该MIPS指令序列。注意:可以改变操作数,但不能改变操作码和指令条数。画出调度前和调度后的MIPS代码序列执行的流水线时空图,计算调度前和调度后的MIPS代码序列执行所需的时钟周期数,以及调度前后的MIPS流水线执行的加速比。 4.根据3的结果说明流水线相关对CPU性能的影响。 三、(20分)请分析I/O对于性能的影响有多大?假设: 1.I/O操作按照页面方式进行,每页大小为16 KB,Cache块大小为64 B;且对应新页的地址不在Cache中;而CPU不访问新调入页面中的任何数据。 2.Cache中95%被替换的块将再次被读取,并引起一次失效;Cache使用写回方法,平均50%的块被修改过;I/O系统缓冲能够存储一个完整的Cache块。 3.访问或失效在所有Cache块中均匀分布;在CPU和I/O之间,没有其他访问Cache 的干扰;无I/O时,每1百万个时钟周期中,有15,000次失效;失效开销是30个时钟周期。如果替换块被修改过,则再加上30个周期用于写回主存。计算机平均每1百万个周期处理一页。

高级计算机体系结构作业汇总(非标准答案)

1.Explain the Concepts Computer Architecture 系统结构 由程序设计者所看到的一个计算机系统的属性。即计算机系统的软硬件界面。 Advanced CA 高级系统结构 新型计算机系统结构。基于串行计算机结构,研究多指令多数据计算机系统,具有并发、可扩展和可编程性。为非冯式系统结构。 Amdahl law Amdahl定律 系统中某部件由于采用某种方式时系统性能改进后,整个系统性能的提高与该方式的使用频率或占的执行时间的比例有关。 SCALAR PROCESSING 标量处理机 在同一时间内只处理一条数据。 LOOK-AHEAD 先行技术 通过缓冲技术和预处理技术,解决存储器冲突,使运算器能够专心与数据的运算,从而大幅提高程序的执行速度。 PVP 向量型并行计算处理机 以流水线结构为主的并行处理器。 SMP 对称多处理机系统 任意处理器可直接访问任意内存地址,使用共享存储器,访问延迟、带宽、机率都是等价的。MPP 大规模并行计算机系统 物理和逻辑上均是分布内存,能扩展至成百上千处理器,采用专门设计和定制的高通信带宽和低延迟的互联网络。 DSM 分布式共享存储系统 内存模块物理上局部于各个处理器内部,但逻辑上是共享存储的。 COW 机群系统 每个节点都是一个完整的计算机,各个节点通过高性能网络相互连接,网络接口和I/O总线松耦合连接,每个节点有完整的操作系统。 GCE 网格计算环境 利用互联网上的计算机的处理器闲置处理能力来解决大型计算问题的一种科学计算。 CISC 复杂指令集计算机

通过设置一些复杂的指令,把一些原来由软件实现的常用功能改用硬件实现的指令系统实现,以此来提高计算机的执行速度。 RISC 精简指令集计算机 尽量简化计算机指令功能,只保留那些功能简单,能在一个节拍内执行完的指令,而把复杂指令用段子程序来实现。 VMM 虚拟机监视器 作为软硬件的中间层,在应用和操作系统所见的执行环境之间。 SUPERCOMPUTER 超级计算机 数百数千甚至更多的处理器组成的能计算普通计算机不能完成的大型复杂问题的计算机。SVM 共享虚拟存储器 存储器虚拟化为一个共享的存储器,并提供单一的地址空间。 MAINFRAME 大型计算机 作为大型商业服务器,一般用于大型事务处理系统,特别是过去完成的且不值得重新编写的数据库应用系统方面。 COMPUTER SYSTEM ON CHIP 片上计算机系统 在单个芯片上集成的一个完整系统。 PARALLEL ARCHITECTURE INTO SINGLE CHIP 单片并行结构 在单个芯片上采用的并行体系结构 MOORE law Moore定律 当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。 UMA 一致存储访问 采用集中式存储的模式,提供均匀的存储访问。 NUMA 非一致存储访问 内存模块局部在各个结点内部,所有局部内存模块构成并行机的全局内存模块。 COMA 全高速缓存存储访问 采用分布式存储模式,通过高速缓存提供快速存储访问。 CC-NUMA 全高速缓存非一致性均匀访问 存在专用硬件设备保证在任意时刻,各结点Cache中数据与全局内存数据的一致性。NORMA 非远程存储访问

计算机体系结构参考1

第一题选择题 1.SIMD是指(B) A、单指令流单数据流 B、单指令流多数据流 C、多指令流单数据流 D、多指令流多数据流 2.下列那种存储设备不需要编址?D A. 通用寄存器 B. 主存储器 C. 输入输出设备 D. 堆栈 3.按照计算机系统层次结构,算术运算、逻辑运算和移位等指令应属于(A)级机器语言。 A、传统机器语言机器 B、操作系统机器 C、汇编语言机器 D、高级语言机器 4.早期的计算机系统只有定点数据表示,因此硬件结构可以很简单。但是这样的系统有明显的缺点,下面哪一个不是它的缺点:B A.数据表示范围小 B.单个需要的计算时钟周期多 C.编程困难 D.存储单元的利用率很低 7.下面哪个页面替换算法实际上是不能够实现的?D A)随机页面替换算法 B)先进先出替换算法 C)最久没有使用算法 D)最优替换算法

9.指令优化编码方法,就编码的效率来讲,那种方法最好?C A. 固定长度编码 B. 扩展编码法 C. huffman编码法 D. 以上编码都不是 10.在早期冯·诺依曼计算机特征中,机器以(C)为中心。 A、存储器 B、输入输出设备 C、运算器 D、控制器 1.RISC 计算机的指令系统集类型是( C ) 。 A. 堆栈型 B. 累加器型 C. 寄存器—寄存器型 D. 寄存器- 存储器型 2、相联存储器的访问方式是( D )。 A.先进先出顺序访问 B.按地址访问 C.无地址访问 D.按内容访问 3、假设—条指令的执行过程可以分为“取指令”、“分析”和“执行”三段,每—段分别只有—个部件可供使用,并且执行时间分别为Δt、2Δt和3Δt,连续执行n条指令所需要花费的最短时间约为( C )。 (假设“取指令”、“分析”和“执行”可重叠,并假设n足够大) A.6 nΔt B.2 nΔt C.3 nΔt D.nΔt 6、下列计算机不属于RISC计算机的是(C )。 A.SUN:Ultra SPARC

计算机系统结构期末考试试题及其答案

计算机系统结构期末考试试题及其答案

《计算机系统结构》期末考试试卷A 卷第 2 页 共 24 页 计算机科学系《计算机系统结构》期末考试试卷(A 卷) 2、此试卷适用于计算机科学与技术本科专业。 一 单选题:(10分,每题1分) 1、 ."启动I/O"指令是主要的输入输出指 令,是属于( B ) A.目态指令 B.管态指令 C.目态、管态都能用的指令 D.编译程序只能用的指令 2、 输入输出系统硬件的功能对(B )是透 明的 A.操作系统程序员 B.应用程序员 C.系统结构设计人员 D.机器语言程序设计员 3、 全相联地址映象是指(A ) A.任何虚页都可装入主存中任何实页的位置 B.一个虚页只装进固定的主存实页位置 C.组之间固定,组内任何虚页可装入任何实页位

置 D.组间可任意装入,组内是固定装入 4、( C ) 属于MIMD系统结构 A.各处理单元同时受一个控制单元的管理 B.各处理单元同时受同个控制单元送来的指令 C.松耦合多处理机和多计算机系统 D.阵列处理机 5、多处理机上两个程序段之间若有先写 后读的数据相关,则(B ) A.可以并行执行 B.不可能并行 C.任何情况均可交换串行 D.必须并行执行 6、计算机使用的语言是(B) A.专属软件范畴,与计算机体系结构无关 B.分属于计算机系统各个层次 C.属于用以建立一个用户的应用环境 D.属于符号化的机器指令 7、指令执行结果出现异常引起的中断是 (C ) A.输入/输出中断 B.机器校验中断 C.程序性中断 D.外部中断 《计算机系统结构》期末考试试卷A卷第 3 页共 24 页

计算机体系结构_第一次作业

计算机体系结构 第一章 1.11 Availability is the most important consideration for designing servers, followed closely by scalability and throughput. a. We have a single processor with a failures in time(FIT) of 100. What is the mean time to failure (MTTF) for this system? b. If it takes 1 day to get the system running again, what is the availability of the system? c. Imagine that the government, to cut costs, is going to build a supercomputer out of inexpensive computers rather than expensive, reliable computers. What is the MTTF for a system with 1000 processors? Assume that if one fails, they all fail. 答: a. 平均故障时间(MTTF)是一个可靠性度量方法,MTTF的倒数是故 障率,一般以每10亿小时运行中的故障时间计算(FIT)。因此由该定义可知1/MTTF=FIT/10^9,所以MTTF=10^9/100=10^7。b. 系统可用性=MTTF/(MTTF+MTTR),其中MTTR为平均修复时间, 在该题目中表示为系统重启时间。计算10^7/(10^7+24)约等于1. c. 由于一个处理器发生故障,其他处理器也不能使用,所以故障率 为原来的1000倍,所以MTTF值为单个处理器MTTF的1/1000即10^7/1000=10^4。 1.14 In this exercise, assume that we are considering enhancing

完整版计算机体系结构课后习题原版答案_张晨曦著

第1章计算机系统结构的基本概念 (1) 第2章指令集结构的分类 (10) 第3章流水线技术 (15) 第4章指令级并行 (37) 第5章存储层次 (55) 第6章输入输出系统 (70) 第7章互连网络 (41) 第8章多处理机 (45) 第9章机群 (45) 第1章计算机系统结构的基本概念 1.1 解释下列术语 层次机构:按照计算机语言从低级到高级的次序,把计算机系统按功能划分成多级层次结构,每一层以一种不同的语言为特征。这些层次依次为:微程序机器级,传统机器语言机器级,汇编语言机器级,高级语言机器级,应用语言机器级等。 虚拟机:用软件实现的机器。 翻译:先用转换程序把高一级机器上的程序转换为低一级机器上等效的程序,然后再在这低一级机器上运行,实现程序的功能。

解释:对于高一级机器上的程序中的每一条语句或指令,都是转去执行低一级机器上的一段等效程序。执行完后,再去高一级机器取下一条语句或指令,再进行解释执行,如此反复,直到解释执行完整个程序。 计算机系统结构:传统机器程序员所看到的计算机属性,即概念性结构与功能特性。 在计算机技术中,把这种本来存在的事物或属性,但从某种角度看又好像不存在的概念称为透明性。 计算机组成:计算机系统结构的逻辑实现,包含物理机器级中的数据流和控制流的组成以及逻辑设计等。 计算机实现:计算机组成的物理实现,包括处理机、主存等部件的物理结构,器件的集成度和速度,模块、插件、底板的划分与连接,信号传输,电源、冷却及整机装配技术等。 系统加速比:对系统中某部分进行改进时,改进后系统性能提高的倍数。 Amdahl定律:当对一个系统中的某个部件进行改进后,所能获得的整个系统性能的提高,受限于该部件的执行时间占总执行时间的百分比。 程序的局部性原理:程序执行时所访问的存储器地址不是随机分布的,而是相对地簇聚。包括时间局部性和空间局部性。

计算机体系结构模拟试题二汇总

模拟试题二 课程名称计算机系统结构适用班级: 考试时间120分钟班级学 号姓名 一、单项选择题(本大题共10小题,每小题2分,共20分。在每小题的四个备选答案中选出一个符合题意的,并将其前面的序号填在题后的括号内。) 1.输入输出系统硬件的功能对()是透明的。 ①操作系统程序员②应用程序员③系统结构设计人员④机器语言程序设计员 2."启动I/O"指令是主要的输入输出指令,是属于() ①目态指令②管态指令③目态、管态都能用的指令④编译程序只能用的指令 3.全相联地址映象是指() ①任何虚页都可装入主存中任何实页的位置 ②一个虚页只装进固定的主存实页位置 ③组之间是固定的,而组内任何虚页可以装入任何实页位置 ④组间可任意装入,组内是固定装入 4.()属于MIMD系统结构。 ①各处理单元同时受同一个控制单元的管理 ②各处理单元同时接受同一个控制单元送来的指令 ③多处理机和多计算机系统 ④阵列处理机 5.在下列方法中,指令并行度不能大于1的是()。 ①超级流水②超标量③超长指令字④标量流水线 6.设16个处理器编号分别为0,1,2,…,15用Cube3互联函数时,第10号处理机与第( )

号处理机相连. ①11 ②8 ③l4 ④2 7.若输入流水线的指令既无局部性相关,也不存在全局性相关,则() ①可获得高的吞吐率和效率②流水线的效率和吞吐率恶化 ③出现瓶颈④可靠性提高 8.对于共享主存的多处理机系统,在各个CPU都带有自己的Cache的情况下,为保证处理机所带Cache的一致性,可采用的方法有() ①写直达法②写回法③播写法④堆栈法 9.下面哪种相关不是流水线顺序流动方式所具有的() ①数据相关②指令相关③先读后写④先写后读 10.下面关于Omega网络和多级立方体网络的说法错误的是() ①Omega网络采用四功能单元 ②Omega网络和多级立方体网络的控制方式是不一样的 ③Omega网络可以实现一个处理单元与多个处理单元的同时连接 ④Omega网络和多级立方体网络的级编号顺序正好相反。 二、填空题(本大题共10小题,每小题1分,共10分。把答案填在题中横线上。) 1.为提高计算机系统的并行性,可通过的技术途径有__________、资源重复和资源共享。 2.按弗林(Michael J.Flynn)的观点,计算机系统可分为SISD、、MISD 和MIMD四大类。 3.为提高访Cache的命中率,Cache的预取算法可以有恒预取法和___________预取法。 4.衡量主存性能的指标是访问时间、存储周期和__________。 5.要实现两条指令在时间上重叠解释,首先是以增加硬件为代价的,其次,还要处理好指令之间可能存在的。 6.互连网络的交换方法主要有线路交换、包交换、线路/包交换,SIMD互连网络多采用交换,多处理机常采用包交换。 7.为同时解释相邻两条或多条指令,常用的控制方式是重叠和____________。 8.数组多路通道与设备之间的数据传送的基本单位是_____。 9.多级互连网络的交换开关控制方式主要有三种,分别是______、单元控制和部分级控制。 10.多处理机系统按照连接的紧密程度主要分两大类,分别是___________和松散耦合多处理

计算机系统结构第1-8章部分作业答案复习课程

计算机系统结构第1-8章部分作业答案

第一章 1.6 某台主频为400MHz 的计算机执行标准测试程序,程序中指令类型、执行数量和平均时钟周期数如下: 求该计算机的有效CPI 、MIPS 和程序执行时间。 解:(1)CPI =(45000×1+75000×2+8000×4+1500×2) / 129500=1.776 (或 259 460 ) (2)MIPS 速率=f/ CPI =400/1.776 =225.225MIPS (或 259 5180 MIPS) (3)程序执行时间= (45000×1+75000×2+8000×4+1500×2)/ 400=575μs 1.9 假设某应用程序中有4类操作,通过改进,各操作获得不同的性能提高。具体数据如下表所示: (1)改进后,各类操作的加速比分别是多少? (2)各类操作单独改进后,程序获得的加速比分别是多少? (3)4类操作均改进后,整个程序的加速比是多少? 解:根据Amdahl 定律Se Fe Fe S n + -= )1(1可得

4类操作均改进后,整个程序的加速比: 2.16)1(1 ≈+-=∑∑i i i n S F F S 1.10 第二章 变长编码,哈夫曼编码 第三章 3.12 有一条指令流水线如下所示: (1)求连续输入10条指令的情况下,该流水线的实际吞吐率和效率。 (2)该流水线的瓶颈在哪一段?请采用两种不同的措施消除此瓶颈。对于你所给出的两种新的流水线,连续输入10条指令时,其实际吞吐率和效率各是多少? 解: (1)本题主要考察对各功能段用时不等的线性流水线的性能计算公式的掌握情况。 2200(ns) 2009200)10050(50t n t T max k i i =?++++=?-+?=∑=)1(1 流水 )(ns 220 1 T n TP 1-==流水

计算机系统结构试题及答案

计算机系统结构复习题 单选及填空: 计算机系统设计的主要方法 1、由上往下的设计(top-down) 2、由下往上的设计(bottom-up) 3、从中间开始(middle-out) Flynn分类法把计算机系统的结构分为以下四类: (1)单指令流单数据流 (2)单指令流多数据流 (3)多指令流单数据流 (4) 多指令流多数据流 堆栈型机器:CPU 中存储操作数的单元是堆栈的机器。 累加器型机器:CPU 中存储操作数的单元是累加器的机器。 通用寄存器型机器:CPU 中存储操作数的单元是通用寄存器的机器。 名词解释: 虚拟机:用软件实现的机器叫做虚拟机,但虚拟机不一定完全由软件实现,有些操作可以由硬件或固件(固件是指具有软件功能的固件)实现。 系列机:由同一厂家生产的具有相同系统结构、但具有不同组成和实现的一系列不同型号的计算机。 兼容机:它是指由不同公司厂家生产的具有相同系统结构的计算机。 流水线技术:将一个重复的时序过程,分解成为若干个子过程,而每一个子过程都可有效地在其专用功能段上与其它子过程同时执行。 单功能流水线:指流水线的各段之间的连接固定不变、只能完成一种固定功能的流水线。 多功能流水线:指各段可以进行不同的连接,以实现不同的功能的流水线。 顺序流水线:流水线输出端任务流出的顺序与输入端任务流入的顺序完全相同。 乱序流水线:流水线输出端任务流出的顺序与输入端任务流入的顺序可以不同,允许后进入流水线的任务先完成。这种流水线又称为无序流水线、错序流水线、异步流水线。 吞吐率:在单位时间流水线所完成的任务数量或输出结果的数量。 指令的动态调度:

是指在保持数据流和异常行为的情况下,通过硬件对指令执行顺序进行重新安排,以提高流水线的利用率且减少停顿现象。是由硬件在程序实际运行时实施的。 指令的静态调度: 是指依靠编译器对代码进行静态调度,以减少相关和冲突。它不是在程序执行的过程中、而是在编译期间进行代码调度和优化的。 超标量: 一种多指令流出技术。它在每个时钟周期流出的指令条数不固定,依代码的具体情况而定,但有个上限。 超流水:在一个时钟周期分时流出多条指令。 多级存储层次: 采用不同的技术实现的存储器,处在离CPU不同距离的层次上,各存储器之间一般满足包容关系,即任何一层存储器中的容都是其下一层(离CPU更远的一层)存储器中容的子集。目标是达到离CPU最近的存储器的速度,最远的存储器的容量。 写直达法: 在执行写操作时,不仅把信息写入Cache中相应的块,而且也写入下一级存储器中相应的块。写回法: 只把信息写入Cache中相应块,该块只有被替换时,才被写回主存。 集中式共享多处理机: 也称为对称式共享存储器多处理SMP。它一般由几十个处理器构成,各处理器共享一个集中式的物理存储器,这个主存相对于各处理器的关系是对称的, 分布式共享多处理机: 它的共享存储器分布在各台处理机中,每台处理机都带有自己的本地存储器,组成一个“处理机-存储器”单元。但是这些分布在各台处理机中的实际存储器又合在一起统一编址,在逻辑上组成一个共享存储器。这些处理机存储器单元通过互连网络连接在一起,每台处理机除了能访问本地存储器外,还能通过互连网络直接访问在其他处理机存储器单元中的“远程存储器”。 多Cache一致性: 多处理机中,当共享数据进入Cache,就可能出现多个处理器的Cache中都有同一存储器块的副本,要保证多个副本数据是一致的。 写作废协议: 在处理器对某个数据项进行写入之前,它拥有对该数据项的唯一的访问权 。 写更新协议: 当一个处理器对某数据项进行写入时,它把该新数据广播给所有其它Cache。这些Cache用该新数据对其中的副本进行更新。 机群:是一种价格低廉、易于构建、可扩放性极强的并行计算机系统。它由多台同构或异构

计算机体系结构重点总结

1、、Amdahl定律:某部件应用越频繁,当提高该部件性能时,整机性能也提高得越多;整机得性能加速不可能大于在原机器中除该部件外所有其它部件运行时间得百分比得倒数1/(1-F)。 F定义为采用先进高速部件得那部分程序在未采用先进高速部件得计算机上运行得时间占总时间得百分比,则F= 采用高速部件得任务在老计算机上运行得时间 整个任务在老计算机上运行得时间 同时将S定义为先进高速部件与老部件得性能,则 S= 老部件完成该功能得时间 先进高速部件完成该功能得时间 而采用了高速部件后整机性能提高比,即 Speedup = T old = 1 T new (1-F)+F/S 某种硬件增强技术,可使执行速度提高10倍,在采用增强技术得计算机上测出其使用率就是50%。根据Amdahl定律计算: ⑴采用增强技术后计算机性能加速比就是多少? ⑵未采用增强技术运行得部件在不采用增强技术得机器上运行时得时间比例。 2、(1)90/10局部性规则:程序花费90%得执行时间运行指令集中10%得指令代码。这就就是说在指令集中所有得指令只有10%指令就是常用得,而另外90%指令得使用率合起来只有10%。 (2)时间局部性:如果某一参数被引用,那它不久将再次被引用。这里指出了程序执行时在时间上得局部性 (3)空间局部性:如果某一参数被引用,那它附近得参数不久也将被引用。指出程序执行时地址空间上得局部性。 3、计算机得性能就是指在计算机上完成用户得应用任务所需得时间长短。完成同样任务所需得时间越短,计算机得性能越好。(考判断) 4、衡量计算机性能得参数:响应时间就是指计算机系统完成某一任务(程序)所花费得时间。 5、如果用速度来评价性能,我们称“高”为性能好;如果用响应时间来评价性能,我们称“短”为性能好。(考判断) 6、计算机整机性能分成两部分:一就是CPU执行程序得时间,二就是等待时间。 提高计算机性能就就是提高CPU性能与减少等待时间。 cpu性能因子CPI:每条指令得平均时钟周期数(clock cycles per instruction), CPI=CPU花费得时钟数/CPU执行得总指令数 CPUtime =指令数× CPI ×时钟周期==I× CPI ×τ 8、CPU性能因子:(1)时钟频率(f)(2)CPI(3)指令数(I) (考填空) CPU性能 =1/CPU time= f / ( I×CPI ) 计算机性能常用指标:(1)MIPS(million instruction per second)MIPS得意思就是每秒钟执行得百万条指令数。 MIPS= 指令数/ ( 执行时间×106 ) = 时钟频率 / ( CPI×106 ) =f / ( CPI×106 ) MFLOPS(million floating-point operation per second)每秒钟执行得百万个浮点操作数MFLOPS=浮点操作数 / 执行时间×106 10、工作负载基准程序(workload benchmark): (1)实际程序(2)核心基准程序(3)简单基准程序(4)合成基准程序 (考填空) 11、基准程序得一般设计原则: (1)具有代表性,反映用户得实际应用。 (2)不能对基准程序进行优化。 (3)复现性。能重复测试,其环境相同,结果能重复出现。(4)可移植性。系统相关性要小。 (5)紧凑性。基准程序不宜太庞大。 (6)成本-效率要高。 12、测量结果得统计与比较----性能报告:SPEC(system performance evaluation cooperative)基准程序 13、指令设计时主要以下几个方面来考虑: (考填空) ⑴应用范围;⑵指令得使用概率;⑶常用指令分析;⑷特殊指令设计。

《计算机体系结构》在线作业二

北交《计算机体系结构》在线作业二 一、单选题(共20 道试题,共60 分。) 1. 按照M ·弗林对处理机并行性定义的分类原则,阵列机ILLIAC —IV 是( )。 A. SISD B. SIMD C. MISD D. MIMD 正确答案: 2. 输入输出系统硬件的功能对( )是透明的。 A. 操作系统程序员 B. 应用程序员 C. 系统结构设计人员 D. 机器语言程序设计员 正确答案: 3. 浮点数尾数基值rm=8,尾数数值部分长6位,可表示规格化正尾数的个数是()。 A. 56个 B. 63个 C. 64个 D. 84个 正确答案: 4. 从计算机系统结构上讲,机器语言程序员所看到的机器属性是( )。 A. 计算机软件所要完成的功能 B. 计算机硬件的全部组成 C. 编程要用到的硬件组织 D. 计算机各部件的硬件实现 正确答案: 5. 对机器语言程序员透明的是( )。 A. 中断字 B. 主存地址寄存器 C. 通用寄存器 D. 条件码 正确答案: 6. 通道方式输入输出系统中,对优先级高的磁盘等高速设备,适合于连接( )。 A. 字节多路通道 B. 选择通道 C. 数组多路通道

D. 字节及数组多路通道 正确答案: 7. 设16 个处理器编号分别为0 ,1 ,2 ,…,15 ,用PM 2-0 互联函数时,第13 号处理机与第( ) 号处理机相联。 A. 12 B. 9 C. 11 D. 5 正确答案: 8. 对系统程序员不透明的应当是( )。 A. Cache存贮器 B. 系列机各档不同的数据通路宽度 C. 指令缓冲寄存器 D. 虚拟存贮器 正确答案: 9. 对应用程序员不透明的是( )。 A. 先行进位链 B. 乘法器 C. 指令缓冲器 D. 条件码寄存器 正确答案: 10. 系列机软件应做到( )。 A. 向前兼容,并向上兼容 B. 向后兼容,力争向上兼容 C. 向前兼容,并向下兼容 D. 向后兼容,力争向下兼容 正确答案: 11. 动态数据流机最突出的特点是使( )。 A. 数据流令牌无标号 B. 需要程序记数器来实现 C. 令牌带上标号 D. 同步由门(Latch)寄存器来实现 正确答案: 12. 计算机系统多级层次中,从下层到上层,各级相对顺序正确的应当是( )。 A. 汇编语言机器级――操作系统机器级――高级语言机器级 B. 微程序机器级――传统机器语言机器级――汇编语言机器级 C. 传统机器语言机器级――高级语言机器级――汇编语言机器级 D. 汇编语言机器级――应用语言机器级――高级语言机器级 正确答案: 13. 用户高级语言源程序中出现的读写(I/O) 语句,到读写操作全部完成,需要通过( )共同完成。 A. 编译系统和操作系统 B. I/O 总线、设备控制器和设备 C. 操作系统和I/O 设备硬件

相关文档
相关文档 最新文档