文档视界 最新最全的文档下载
当前位置:文档视界 › 数据仓库课程设计---pubs出版物分析系统

数据仓库课程设计---pubs出版物分析系统

数据仓库课程设计---pubs出版物分析系统
数据仓库课程设计---pubs出版物分析系统

数据仓库课程设计说明书

题目pubs出版物分析系统

系 (部) 信息与计算科学

专业(班级) 信息与计算科学(2)班

姓名

学号

指导教师

起止日期2011-5-20到2011-5-24

数据仓库课程设计任务书

专业信息与计算科学

班级09级1、2班

指导老师

任务书发出时间2012-5-9

信息与计算科学系

2012年5 月9日

课 程 设 计 任 务 书

课程 数据仓库课程设计

题目 pubs 出版物分析系统

序号

8

主 要 内 容

基于pubs 数据库,创建数据库仓库并进行数据分析,要求满足以下分析需求。(说明:销售情况指销售总额、销售数量)

1. 按时间级别分析不同出版社(按国家、洲、城市、具体出版社)的销售情况;

2. 按时间级别分析各书店(按国家、洲、城市、具体出版社)的销售情况;

3. 按时间级别分析不同作者的销售情况;

4. 按时间级别分析不同雇员的销售情况;

5. 按时间级别分析不同折扣的销售情况;

6. 通过浏览器和报表方式分析以上需求。

要 求

基本要求

1. 按需求完成详细的设计,包括事实表和维度的设计;

2. 按设计方案选择相关数据表以及各表的字段,表之间的关系;

3. 有详细的数据准备方案,包括验证、清理、转换、装载等;

4. 合并employee 中lname 和fname 字段为name ;

5. 将discounts 的discount 字段值划分为高、中、低、无等四个等级;

6. 按设计方案构建多维数据集;

7. 按需求分析数据。 高级要求

可分析销售总额的年增长率; 工作计划

及进度 提前两周:分组、选题;

提前一周:明确需求分析、组内分工;

第一天:与指导老师讨论,确定需求、分工,并开始设计; 第二~四天:构建多维数据集、分析数据; 第五天:完成设计说明书,答辩;

第六天:针对答辩意见修改设计说明书,打印、上交。

指导教师签字 谭义红 陈治平 赵碧海

2012年5月3日

教研室

审定意见

同意实施

签字 陈治平 2012年 5 月 5 日

长沙学院课程设计鉴定表

姓名学号专业信息与计算科学班级 2 设计题目pubs出版物分析系统指导教师

指导教师意见:

评定等级:教师签名:日期:

答辩小组意见:

评定等级:答辩小组长签名:日期:

教研室意见:

教研室主任签名:日期:

系(部)意见:

系主任签名:日期:

说明课程设计成绩分“优秀”、“良好”、“及格”、“不及格”四类;

长沙学院课程设计鉴定表

姓名学号专业信息与计算科学班级 2 设计题目Pubs出版物分析系统指导教师

指导教师意见:

评定等级:教师签名:日期:

答辩小组意见:

评定等级:答辩小组长签名:日期:

教研室意见:

教研室主任签名:日期:

系(部)意见:

系主任签名:日期:

说明课程设计成绩分“优秀”、“良好”、“及格”、“不及格”四类;

目录

第1章系统需求 (1)

1.1 系统背景 (1)

1.2 系统需求 (1)

第2章数据仓库设计 (3)

2.1 问题域的确定 (3)

2.2 识别事实数据和维度数据 (4)

2.3 事实表设计 (4)

2.4 粒度设计 (5)

2.5 维度设计 (5)

3.1 数据表的筛选 (7)

3.2 数据验证 (7)

3.2 数据清理 (8)

3.2.1 冗余数据的处理 (8)

3.2.2 空值的处理 (9)

3.2.3 不规范数据的处理 (9)

3.3 数据转换 (10)

3.3.1 数据类型的转换 (10)

3.3.2 对象名的转换 (10)

第4章多维数据集构建 (11)

4.1 创建项目 (11)

4.2 创建多维数据集 (11)

4.3 创建数据源和视图 (15)

4.4 替换数据表和建立关系 (17)

4.5 修改事实和维度属性 (20)

4.6 修改维度用法 (22)

4.7 修改分区 (23)

4.8 部署及多维数据集 (24)

第5章数据分析 (25)

5.1 MDX分析 (25)

5.2 报表分析 (27)

5.2.1 创建报表 (27)

5.2.2 分析报表 (29)

结论 (31)

参考文献 (32)

结束语 (33)

第1章系统需求

1.1 系统背景

本系统是对pubs出版物的数据进行多维分析.该数据库包括authors、discounts、sales等数据表.这些表所记录的主要信息如下表所示:

表1.1 pubs数据库中的表信息

序号表名名称含义

1 authors 作者表记录作者的基本信息,例如作者的电话

2 discounts 折扣表记录折扣的基本信息,例如折扣的金额

3 employee 雇员表记录雇员的基本信息,例如雇员的姓名

4 jobs 工作表记录工作的基本信息,例如工作职位

5 publishers 出版社表记录出版社的基本信息,例如出版社的名称

6 sales 销售表记录销售的基本信息,例如销售的日期

7 stores 书店表记录书店的基本信息,例如书店的地址

8 titles 图书表记录图书的基本信息,例如图书的价格

9 roysched 版税表记录版税的基本信息

记录图书和作者的关系

10 titleauthor 图书和作

者关系表

11 pub_info 出版社

记录对出版社的描述信息

描述表

12 sales_s 事实表记录各表之间的联系

1.2 系统需求

基于pubs数据库,创建数据库仓库并进行数据分析,要求满足以下分析需求.

1.按时间级别分析不同出版社(按国家、洲、城市、具体出版社)的销售

情况;

2.按时间级别分析各书店(按国家、洲、城市、具体出版社)的销售情况;

3.按时间级别分析不同作者的销售情况;

4.按时间级别分析不同雇员的销售情况;

5.按时间级别分析不同折扣的销售情况;

6.通过浏览器和报表方式分析以上需求。

组内分工

曾杉清:主要负责需求分析、数据准备以及事实表构建刘大泽:主要负责多维数据集的构建以及报表打印

第2章数据仓库设计

2.1 问题域的确定

从以上的系统需求可以得到以下信息:

(1)分析的主题

pubs出版物的数据分析.

(2)分析的数值(事实)

按时间级别分析不同出版社、不同书店、不同作者、不同雇员、不同折扣的销售情况,包括销售金额和销售数量.

(3)分析的角度(维度)

出版社维度、书店维度、作者维度、雇员维度、折扣维度.(4)分析的粒度(维度级别)

出版社:pbu_id、pub_name、country、state、city.

书店:stor_id、stor_name、state、city.

作者:au_id、au_fname、state、city.

雇员:emp_id、qname.

折扣:discount、discountrype.

根据对需求进行分析,得到pubs事实模式图,如图2.1所示.

图2.1 pubs事实模式图

2.2 识别事实数据和维度数据

识别pubs数据库的事实数据和维度数据.

pubslishers表:

pub_id基于事实表

pub_name,city,state,country属于出版社维度的字段

stores表:

stor_id属于主键

stor_name属于书店维度字段

authors表:

au_id 属于主键

au_name属于作者维度的字段。

employee表:

emp_id基于事实表

name属于雇员维度的字段。

discounts表:

discount属于折扣维度的字段

store_id 属于书店维度字段。

sales_s表:

pub_id 属于出版社维度字段

stor_id属于书店维度字段

au_id属于作者维度字段

emp_id属于雇员维度字段

ora_date属于时间维度字段

discount属于折扣维度

Price,qty ,total基于事实表

2.3 事实表设计

表2.1事实表的设计

字段数据类型来源功能描述

连接字段ord_num varchar(20) sales 订单编号stor_id char(4) store 商店编号title_id varchar(8) sales 书本编号pub_id char(4) publisher 出版社编号

ord_date datetime sales 销售时间

au_id varchar(11) authors 作者编号

emp_id char(9) employee 雇员编号

discount decimal(4,2) discounts 折扣度量值qty smallint sales 销售数量

total real sales 销售总额

price money sales 商品单价2.4 粒度设计

出版社:pbu_id、pub_name、country、state、city.

书店:stor_id、stor_name、state、city.

作者:au_id、au_fname、state、city.

雇员:emp_id、qname.

折扣:discount、discountrype.

2.5 维度设计

出版社表

表2.2 出版社维度

字段数据类型功能描述

pub_id char(4) 出版社ID

pub_name varchar(40) 出版社名称

city varchar(20) 出版社所在城市

state char(2) 出版社所在州country varchar(30) 出版社所在国家

书店表

表2.3 书店维度

字段数据类型功能描述

ctor_id char(4) 书店ID

stor_name varchar(40) 书店名称

city varchar(20) 书店所在城市

state char(2) 书店所在州

雇员表

表2.4 雇员维度

字段数据类型功能描述Emp_id char(9) 雇员ID qname varchar(50) 雇员名字折扣表

表2.5 折扣维度

字段数据类型功能描述discounttype varchar(40) 折扣类型discount decimal(4,2) 折扣

第3章数据准备

3.1 数据表的筛选

根据事实表和维度表的设计,从pubs数据库中选出有用的数据,用SQL 语句建立事实表.并从pubs数据库中选出authors,discounts,employee,jobs, pub-infopublishers,sales,stores,titleauthors,titles等有用的数据表并对数据进行分析.

SQL语句编写:

create view sales_v

as select ord_num,stor_id,a.title_id,b.pub_id,ord_date,qty,

b.price,total=(qty*b.price) from sales a join titles b on a.title_id=b.title_id

create view sales_b

as select ord_num,a.stor_id,a.title_id,a.pub_id,ord_date,qty, p rice,total,

b.emp_id,

c.au_id from sales_v a,employee b,titleauthor c where

a.pub_id=

b.pub_id and a.title_id=

c.title_id

create view sales_c

as select ord_num,a.stor_id,a.title_id,a.pub_id,ord_date,qty, price,total,

a.emp_id,a.au_id,

b.discount from sales_b a left join discounts b on

a.stor_id=

b.stor_id

select * into sales_s from sales_c

3.2 数据验证

在建立多维数据集之前需对数据的参照完整性进行验证,并对不完整的数据进行必要的处理,如补充主码值或删除不符合参照完整性约束的外键内容.

(1)对authors数据表的参照完整性验证

SELECT DISTINCT au_id FROM authors WHERE au_id

NOT IN(SELECT au_id FROM titleauthor)

(2)对discounts数据表的参照完整性验证

SELECT DISTINCT stor_id FROM discounts WHERE

stor_id NOT IN(SELECT stor_id FROM stores)

(3)对employee数据表的参照完整性验证

SELECT DISTINCT pub_id FROM employee WHERE pub_id NOT IN(SELECT pub_id FROM publishers)

(4)对jobs数据表的参照完整性验证

SELECT DISTINCT job_id FROM jobs WHERE job_id NOT IN(SELECT job_id FROM employee)

(5)对pub_info数据表的参照完整性验证

SELECT DISTINCT pub_id FROM pub_info WHERE pub_id

NOT IN(SELECT pub_id FROM publishers)

(6)对publishers数据表的参照完整性验证

SELECT DISTINCT pub_id FROM publishers WHERE pub_id

NOT IN(SELECT stor_id FROM pub_info)

(7)对sales数据表的参照完整性验证

SELECT DISTINCT title_id FROM sales WHERE title_id

NOT IN(SELECT title_id FROM titles)

(8)对stores数据表的参照完整性验证

SELECT DISTINCT stor_id FROM store WHERE stor_id NOT IN(SELECT stor_id FROM sales_a)

(9)对titleauthor数据表的参照完整性验证

SELECT DISTINCT title_id FROM titleauthor WHERE title_id

NOT IN(SELECT title_id FROM titles)

(10)对titles数据表的参照完整性验证

SELECT DISTINCT pub_id FROM titles WHERE pub_id NOT IN

(SELECT pub_id FROM publishers)

3.2 数据清理

3.2.1 冗余数据的处理

以authors表为例

select * from authors --查询authors表中的所有记录数

select distinct * from authors --查询authors表中去除重复行后的记录数看两次查询的记录数是否统一,依次对其他表进行查询,显示结果均为记录数相同,说明所有数据表中不存在重复行.

3.2.2 空值的处理

编写SQL语句,检查分析所需要的数值、维度字段是否包含空值,如果包含,则采用相应策略替换空值

使用“select * from 表名”查找各表中是否有空值

查询结果显示,discounts表中lowqty和highqty存在空值,将lowqty 列都替换成100、highqty列替换成1000 代码为

UPDATE discounts SET lowqty = 100

WHERE lowqty IS NULL

UPDATE discounts SET highqty = 1000

WHERE lowqty IS NULL

Publishers表中state列中存在空值,处理方案是若CITY相同,则STATE 相同,SQL语句:

Selecet * from publishers

Update publishers set state=(select state from publishers where city(select dity from publishers where state is null)and state is not null)where state is null.

Titles表中存在空值,因为单条记录空值太多,而且不存在依赖关系,处理方案为删除该条记录,代码为:

Delete from titl es where title_id=’mca3026’

其他表没有空值

3.2.3 不规范数据的处理

编写SQL语句,检查分析所需要的数值、维度字段是否包含缺失数据、无用空格数据,如果包含,则采用相应策略处理.

使用“select*from表名”查找各表中是否有不规范数据.

查询结果显示employee表中存在不规范数据,替换方案为将所有minit列中的不规范数据替换成V,SQL语句:

Update employee set minit=’V’.

3.3 数据转换

3.3.1 数据类型的转换

检查日期字段均为标准格式,所以不需要再转换格式.

3.3.2 对象名的转换

编写SQL语句,对英文表名或字段转换为中文

将authors字段改为“作者”,SQL语句:exec sp_rename authors,’作者’;

将discounts字段改为“折扣”,SQL语句:exec sp_rename discounts,’折扣’;

将employee字段改为“雇员”,SQL语句:exec sp_rename employee,’雇员’;参照如上形式,以及表1.1的信息将对应英文表名或字段转换为中文.

第4章多维数据集构建

4.1 创建项目

使用Visual Studio创建项目

图4.1 新建项目

4.2 创建多维数据集

1、新建多维数据集

图4.2 新建数据集

2、定义度量值

图4.3 定义度量值3、定义维度

图4.4 定义维度

5、指定日历

图4.6 指定日历

数据仓库模型的设计

2.5数据仓库模型的设计 数据仓库模型的设计大体上可以分为以下三个层面的设计151: .概念模型设计; .逻辑模型设计; .物理模型设计; 下面就从这三个层面分别介绍数据仓库模型的设计。 2.5.1概念模型设计 进行概念模型设计所要完成的工作是: <1>界定系统边界 <2>确定主要的主题域及其内容 概念模型设计的成果是,在原有的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。一方面,通过原有的数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识;另一方面,数据仓库的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。 概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不用考虑具体技术条件的限制。 1.界定系统的边界 数据仓库是面向决策分析的数据库,我们无法在数据仓库设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了设计人员的面前: . 要做的决策类型有哪些? . 决策者感兴趣的是什么问题? . 这些问题需要什么样的信息? . 要得到这些信息需要包含原有数据库系统的哪些部分的数据? 这样,我们可以划定一个当前的大致的系统边界,集中精力进行最需要的部分的开发。因而,从某种意义上讲,界定系统边界的工作也可以看作是数据仓库系统设计的需求分析,因为它将决策者的数据分析的需求用系统边界的定义形式反映出来。 2,确定主要的主题域 在这一步中,要确定系统所包含的主题域,然后对每个主题域的内

数据仓库的构建和ETL专业课程设计样本

数据仓库的构建和ETL专业课程设计

Northwind数据仓库的构建和ETL 课程设计与实验报告

课程设计与实验教学目的与基本要求 数据仓库与知识工程课程设计与实验是学习数据仓库与知识工程的重要环节,通过课程设计与实验,可以使学生全面地了解和掌握数据仓库与知识工程课程的基本概念、原理及应用技术,使学生系统科学地受到分析问题和解决问题的训练,提高运用理论知识解决实际问题的能力。 使学生在后继课的学习中,能够利用数据仓库与数据挖掘技术及实践经验,解决相应的实际问题,并能在今后的学习和工作中,结合自己的专业知识,开发相应的数据仓库与数据挖掘应用程序。培养学生将已掌握的理论与实践开发相结合的能力,以及在应用方面的思维能力和实践动手能力。 课程设计与实验一数据仓库的构建和ETL (一)目的 1.理解数据库与数据仓库之间的区别与联系; 2.掌握数据仓库建立的基本方法及其相关工具的使用。 3.掌握ETL实现的基本方法及其相关工具的使用。

(二)内容 1. 以SQL Server为系统平台,设计、建立创建数据仓库NorthwindDW(根据课程设计内容)。 2. 将业务数据库Northwind的数据经过ETL导入(或加载)到数据仓库NorthwindDW。 3. 将数据仓库NorthwindDW事实表的前100个记录导出到Excel中。 (三)数据仓库设计要求 Northwind数据库存储了一个贸易公司的订单数据、产品数据、顾客数据、员工数据、供货商数据等,假设贸易公司的经营者迫切的需要准确地把握贸易公司经营情况,跟踪市场趋势,更加合理地制定商品采购、营销和奖励政策。具体的分析需求是: ●分析某商品在某地区的销售情况 ●分析某商品在某季度的销售情况 ●分析某年销售多少金额的产品给顾客 ●分析某员工的销售业绩 任务:确定主题域、确定系统(或主题)的边界。设计数据模型(星型模型)的事实表和维表。

数据仓库

哈尔滨工业大学华德应用技术学院实验报告 课程名称:数据仓库与数据挖掘 系别:计算机应用技术系 专业:软件工程 学号:1099111130 姓名:陈天任 学期:2012春季学期 实验成绩:

实验项目列表 序号实验名称成绩1SQL Server Integration Services 2SQL Server Analysis Services 3SQL Server Reporting Services 4 5 6 7 8 9 10 11 12 指导教师签字:

实验名称:实验一SQL Server Integration Services 实验时间:2012.4.17实验地点:S201 实验目的:熟悉数据仓库的ETL操作,熟悉SQL Server2005中SSIS的使用;熟练掌握平面文件、excel文件和sql server三者之间的数据转换; 实验步骤:启动SSMS,在sql server2005中新建一个数据库命名为dw。在dw数据库上单击鼠标右键,在弹出的快捷菜单中,选择“任务→导入数据”,设置表名字T2、选择文件源类型excel、选择文件地址、选择导入的数据库dw、设置字段名、设置字段类型。所有的设置完成点击“完成”.打开数据库,查看表,刷新,导入完成。 在Microsoft SQL Server2005中启动SQL Server Business Intelligence Development Studio,在文件菜单中选择“新建→项目”,在弹出的新建项目对话框中选择,填好名称和位置后,点击确定。(1)在Microsoft SQL Server2005的dw数据库中,新建user表,结构如下一图:新建系别表,结构如下二图: (2)控制流中添加数据流任务,数据流中添加 ,,。 (3)设置平面文件源,源文件text1,设置OLE DB,第四列“系别编号”参照新建的系别表中的“编号”,将test1中的前三列及系别表中的系别列导入到dw数据库中的user表中,建立三者的关系,点击文件点启动,等三个控件都变成绿色代表导入成功。 3.将AdventureWorks数据Production.TransactionHistoryArchive表里

数据仓库设计指南

数据仓库设计指南 在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同,下面的两幅图示分别表示带有ODS的数据仓库应用系统体系结构和不带ODS的数据仓库应用系统体系结构。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。GV1 =p}` 在数据仓库的设计指导思想中,数据仓库的概念定义是非常重要的,数据仓库概念规定了数据仓库所具有的几个基本特性,这些特性也正是对数据仓库设计结果进行检验的重要依据。M)_m= }d 根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。_R)tJ Ro ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。4\&P~kI 一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用:#:1< R\H6m 1)在业务系统和数据仓库之间形成一个隔离层。[t"C/;S! 一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。因此,ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。,8mPV{U KU 2)转移一部分业务系统细节查询的功能 Cr

某某银行数据仓库建设项目方案说明

XX 银行 EDW/ 数据仓库项目方案 目录 第一章系统总体架构 (5) 1.1总体架构设计概述 (5) 1.1.1 总体架构的设计框架 (5) 1.1.2总体架构的设计原则 (6) 1.1.3总体架构的设计特点 (7) 1.2 EDW执行架构 (7) 1.2.1执行架构概述 (8) 1.2.2执行架构设计原则 (8) 1.2.3执行架构框架 (9) 1.3 EDW逻辑架构............................................ 1 8

1.3.1逻辑架构框架.......................................... 1 8 1.3.2数据处理流程......................................... 2 7 1.4 EDW运维架构............................................ 2 7 1.4.1 运维架构概述 (27) 1.4.2 运维架构的逻辑框架 (29) 1.5 EDW数据架构............................................ 3 6 1.5.1数据架构设计原则...................................... 3 6 1.5.2数据架构分层设计....................................... 3 8 1.6 EDW应用架构............................................. 4 1 1.6.1应用架构设计原则....................................... 4 1 1.6.2数据服务............................................... 4 2 1.6.3 应用服务 (43) 第二章ETL体系建设 ........................................... 4 4 2.1 ETL架构概述.............................................. 4 4 2.2 ETL设计方案.............................................. 4 6 2.3 ETL关键设计环节......................................... 4 6 2.3.1 接口层设计策略 (46)

数据仓库与数据挖掘课程设计报告书

目录 1. 绪论 (2) 1.1项目背景 (2) 1.2 提出问题 (2) 2 数据库仓库与数据集的概念介绍 (2) 2.1数据仓库 (2) 2.2数据集 (2) 3 数据仓库 (3) 3.1 数据仓库的设计 (3) 3.1.1数据仓库的概念模型设计 (3) 3.1.2数据仓库的逻辑模型设计 (3) 3.2 数据仓库的建立 (3) 3.2.1数据仓库数据集 (3) 3.2.2建立维表 (4) 4.数据挖掘操作 (4) 4.1数据预处理 (4) 4.1.1描述性数据汇总 (4) 4.2决策树 (4) 5、实验心得 (12) 6、大总结 (12)

1. 绪论 1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。 1.2 提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。 2 数据库仓库与数据集的概念介绍 2.1数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 2.2数据集 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

《数据仓库与数据挖掘》课程设计报告模板

江西理工大学应用科学学院 《数据仓库与数据挖掘》课程设计报告 题目:某超市数据集的OLAP分析及数据挖掘 系别: 班级: 姓名: 二〇一二年六月

目录 一、建立数据仓库数据库结构和设置数据源 (1) 1.任务描述 (2) 2.建立数据仓库数据库 ................................................................................................................ 3.设置数据源 ................................................................................................................................ 二、销售数据OLAP分析............................................................................................... 1.任务描述 .................................................................................................................................... 2.设计星型架构多维数据集(Sales) ............................................................................................. 3.设计存储和数据集处理 ............................................................................................................ 4.OLAP分析................................................................................................................................. 三、人力资源数据OLAP分析....................................................................................... 1.任务描述.................................................................................................................................... 2.设计父子维度的多维数据集(HR) ............................................................................................ 3.修改多维数据集(HR)的结构.................................................................................................... 4.设计存储和数据集处理............................................................................................................ 5.OLAP分析 ................................................................................................................................ 四、数据仓库及多维数据集其它操作 ........................................................................... 1.任务描述.................................................................................................................................... 2.设置数据仓库及多维数据集角色及权限 ................................................................................ 3.查看元数据................................................................................................................................ 4.创建对策.................................................................................................................................... 5.钻取............................................................................................................................................ 6.建立远程Internet 连接............................................................................................................ 五、数据仓库高级操作 ................................................................................................... 1.任务描述 .................................................................................................................................... 2.创建分区 .................................................................................................................................... 3.创建虚拟多维数据集 ................................................................................................................ 4.DTS调度多维数据集处理........................................................................................................ 5.备份/还原数据仓库 ................................................................................................................. 六、数据挖掘 ................................................................................................................... 1.任务描述 .................................................................................................................................... 2.创建揭示客户模式的决策树挖掘模型 .................................................................................... 3.决策树挖掘结果分析 ................................................................................................................ 4.创建聚类挖掘模型 .................................................................................................................... 5.聚类挖掘结果分析 .................................................................................................................... 6.创建基于关系数据表的决策树挖掘模型 ................................................................................ 7.浏览“相关性网络”视图 ........................................................................................................

数据仓库与数据挖掘课程设计

数据仓库与数据挖掘课 程设计 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

目录 1. 绪论 (2) 项目背景 (2) 提出问题 (2) 2 数据库仓库与数据集的概念介绍 (2) 数据仓库 (2) 数据集 (2) 3 数据仓库 (3) 数据仓库的设计 (3) 数据仓库的概念模型设计 (3) 数据仓库的逻辑模型设计 (3) 数据仓库的建立 (3) 数据仓库数据集 (3) 建立维表 (4) 4.数据挖掘操作 (4) 数据预处理 (4) 描述性数据汇总 (4) 决策树 (4) 5、实验心得 (12) 6、大总结 (12) 1. 绪论 项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。 提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。

2 数据库仓库与数据集的概念介绍 数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据集 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。 3 数据仓库 数据仓库的设计 3.1.1数据仓库的概念模型设计 概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。 3.1.2数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。 数据仓库的建立 3.2.1数据仓库数据集 一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,

数据仓库-系统设计说明书

归一大数据平台 数据仓库 系统设计说明书受控不受控

修改变更记录:

目录 1引言 (5) 1.1文档编制目的 (5) 1.2背景 (6) 1.3词汇表 (6) 1.4参考资料 (6) 2总体设计 (7) 2.1软件体系结构 (7) 2.2系统运行体系......................................................................... 错误!未定义书签。 2.2.1运行体系图..................................................................... 错误!未定义书签。 2.2.2程序/模块对应表............................................................ 错误!未定义书签。 2.3系统物理结构 (7) 2.4技术路线 (8) 3系统接口设计 (8) 3.1用户接口 (8) 4子系统/模块设计 (8) 4.1数据仓库 (8) 4.1.1ODL(操作数据)层设计 (8) 4.1.2BDL(数据仓库)层设计 (10) 4.1.3IDL(宽表)层设计 (11) 4.1.4PDL(应用)层设计 (12) 4.1.5PUB(维度)层设计 (15) 4.1.6数据导出设计 (16) 5数据结构与数据库设计 (17) 6外部存储结构设计 (17) 7故障处理说明 (17) 8尚需解决的问题 (18)

编写指南: 本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。描述系统整体情况。如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不

商业银行数据仓库报表设计分析

**商业银行数据仓库 报表设计 版本:1.0 4/18/2020

目录 1.报表系统 (3) 1.1. 业务分析 (3) 1.2. 财务分析报表系统 (3) 1.2.1.资产业务分析(月) (3) 1.2.1.1. 资产规模增长情况分析 (4) 1.2.1.2. 资产增量变化情况分析 (4) 1.2.1.3. 资产结构变化情况分析 (4) 1.2.1.4. 贷款资产专项统计 (5) 1.2.2.负债业务分析 (5) 1.2.2.1. 负债规模增长情况分析表 (5) 1.2.2.2. 负债增量变动情况分析表 (5) 1.2.2.3. 负债结构变化情况分析表 (6) 1.2.2.4. 存款负债专项统计 (6) 1.2.3.所有者权益分析 (6) 1.2.3.1. 所有者权益增长情况分析 (6) 1.2.3.2. 所有者权益增量变动情况分析 (7) 1.2.3.3. 所有者权益结构变化情况分析 (7) 1.2.4.财务收支分析 (7) 1.2.4.1. 收支规模增长情况分析 (7) 1.2.4.2. 收支增量变动情况分析 (8) 1.2.4.3. 当期收支情况分析 (8) 1.2.4.4. 财务收支结构变动情况分析 (8) 1.2.4.5. 财务收支计划完成情况分析 (8) 1.2.5.财务比率分析 (9) 1.2.5.1. 各项财务比率分析表 (9) 1.3. 资金计划业务需求 (10) 1.3.1.资金头寸统计 (10) 1.3.2.资金负债管理指标 (10) 1.3.3.现金管理 (10) 1.3.3.1. 结算备付金统计 (10) 1.3.3.2. 库存现金统计 (11) 1.3.3.2.1. 即时余额统计 (11) 1.3.3.2.2. 日均余额统计 (11) 1.3.3.3. 业务量统计 (11) 1.3.4.票据贴现业务统计 (12) 1.4. 综合统计分析 (12) 1.4.1.存款统计 (12) 1.4.1.1. 存款结构统计 (12) 1.4.1.1.1. 日均存款统计 (12) 1.4.1.1.2. 存款即时余额统计 (12)

数据仓库的构建和ETL课程设计.

Northwind数据仓库的构建和ETL 课程设计与实验报告

课程设计与实验教学目的与基本要求 数据仓库与知识工程课程设计与实验是学习数据仓库与知识工程的重要环节,通过课程设计与实验,可以使学生全面地了解和掌握数据仓库与知识工程课程的基本概念、原理及应用技术,使学生系统科学地受到分析问题和解决问题的训练,提高运用理论知识解决实际问题的能力。 使学生在后继课的学习中,能够利用数据仓库与数据挖掘技术及实践经验,解决相应的实际问题,并能在今后的学习和工作中,结合自己的专业知识,开发相应的数据仓库与数据挖掘应用程序。培养学生将已掌握的理论与实践开发相结合的能力,以及在应用方面的思维能力和实践动手能力。 课程设计与实验一数据仓库的构建和ETL (一)目的 1.理解数据库与数据仓库之间的区别与联系; 2.掌握数据仓库建立的基本方法及其相关工具的使用。 3.掌握ETL实现的基本方法及其相关工具的使用。 (二)内容 1. 以SQL Server为系统平台,设计、建立创建数据仓库NorthwindDW(根据课程设计内容)。 2. 将业务数据库Northwind的数据经过ETL导入(或加载)到数据仓库NorthwindDW。 3. 将数据仓库NorthwindDW事实表的前100个记录导出到Excel中。 (三)数据仓库设计要求 Northwind数据库存储了一个贸易公司的订单数据、产品数据、顾客数据、员工数据、供货商数据等,假设贸易公司的经营者迫切的需要准确地把握贸易公司经营情况,跟踪市场趋势,更加合理地制定商品采购、营销和奖励政策。具体的分析需求是: ●分析某商品在某地区的销售情况 ●分析某商品在某季度的销售情况 ●分析某年销售多少金额的产品给顾客 ●分析某员工的销售业绩 任务:确定主题域、确定系统(或主题)的边界。设计数据模型(星型模型)的事实表和维表。

数据仓库与数据挖掘课程设计

通信与信息工程学院 数据仓库与数据挖掘分析课程设计 班级:XXXX XX:XXX 学号:XXXXXX 指导教师:XXXXX 设计时间:XXXXX 成绩: 评 通信与信息工程学院 二〇一X年

工作完成统计表: 教师签名:

目录 1.绪论1 1.1项目背景1 1.2提出问题1 2.数据仓库与数据集市的概念介绍1 2.1数据仓库介绍1 2.2数据集市介绍2 3.数据仓库3 3.1数据仓库的设计3 3.1.1数据仓库的概念模型设计4 3.1.2数据仓库的逻辑模型设计5 3.2 数据仓库的建立5 3.2.1数据仓库数据集成5 3.2.2建立维表8 4.OLAP操作10 5.数据预处理12 5.1描述性数据汇总12 5.2数据清理与变换13 6.数据挖掘操作13 6.1关联规则挖掘13 6.2 分类和预测17 6.3决策树的建立18 6.4聚类分析22 7.总结25 8.任务分配26

1、绪论 1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。 1.2 提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。 2、数据库仓库与数据集的概念介绍 2.1数据仓库 数据仓库介绍: 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据集介绍: 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。 3、数据仓库 3.1 数据仓库的设计 3.1.1数据仓库的概念模型设计 概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。 3.1.2数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题 、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。 逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。

数据仓库-系统设计说明书

系统设计说明书 归一大数据平台 数据仓库 系统设计说明书

修改变更记录:

目录 1引言5 1.1文档编制目的 (5) 1.2背景 (6) 1.3词汇表 (6) 1.4参考资料 (6) 2总体设计7 2.1软件体系结构 (7) 2.2系统物理结构 (7) 2.3技术路线 (8) 3系统接口设计8 3.1用户接口 (8) 4子系统/模块设计8 4.1数据仓库 (8) 4.1.1O DL(操作数据层)设计 (8) 4.1.2B DL(事物层)设计 (10) 4.1.3I DL(宽表层)设计 (11) 4.1.4P DL(应用层)设计 (12) 4.1.5P UB(维度)库设计 (15) 4.1.6业务账(数据集市)库 (16) 4.1.7数据导出设计 (16) 5数据结构与数据库设计17 6外部存储结构设计

17 7故障处理说明17 8尚需解决的问题18

编写指南: 本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。描述系统整体情况。如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不适用”;如果需要对本模板的个别章节详细描述,也可将其形成单独的文档,成为本文档附件。 若文档中的某个章节已经在其他项目文档中加以描述,可保留标题,注明“参见(文档编号)(文档名称)(条款)”。 形成正式文档后须删除斜体字内容。 0 报告编制要求 这里列出本系统设计报告编制的经验性要求,须由系统设计人员参照其进行裁剪以确定本次报告编制的相关规定。

1引言 1.1文档编制目的 指导开发人员进行后期的开发工作; 指导测试人员进行解决方案级的系统测试; 1.2背景 叙述系统设计阶段的目标、作用范围以及其他应向读者说明的理解本报告所需的背景,如与公司其它软件之间的联系等。 1.3词汇表 列出本系统设计说明书中专门术语的定义、英文缩写词的原词组和意义、项目组内达成一致意见的专用词汇,同时要求继承全部的先前过程中定义过的词汇。 词汇名称词汇含义备注 备注中注明该词汇的来源,或有其他更详细的解释的文档位置;以及对该词汇的其他叫法。 1.4参考资料 需求规格说明书 系统架构设计说明书

银行数据仓库构建分析

如何构建银行数据仓库 数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(ROLAP) 2、在多维数据库上建立数据仓库(MOLAP)

MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP 方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP 结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数

数据仓库与数据挖掘课程设计论文

一、需求分析: 一、应用背景: 运输业是国家经济的一个重要的组成部分,其发展水平已经成为一个国家和地区综合实力的重要体现。随着经济全球化,我国对物流的需求将大幅度的增加,物流将呈现跳跃式发展趋势。企业开始改变那种以商品为导向的观念,开始注重发掘,通过收集整理繁多的信息,量化分析需求,提供优质的售后服务,保持稳定的关系等措施,来加强对客户关系的管理。 CRM的主要含义就是通过对详细资料的深入分析,来提高满意程度,从而提高企业的竞争力的一种手段,CRM最大程度地改善、提高了整个关系生命周期的绩效。CRM整合了、公司、员工等资源,对资源有效地、结构化地进行分配和重组,便于在整个关系生命周期及时了解、使用有关资源和知识;简化、优化了各项业务流程,使得公司和员工在销售、服务、市场营销活动中,能够把注意力集中到改善关系、提升绩效的重要方面与核心业务上,提高员工对的快速反应和反馈能力;也为带来了便利,能够根据需求迅速获得个性化的商品、方案和服务。要在激烈的市场竞争中获得主动,越来越多的民航企业把保持客户作为企业的重要任务,谁能留住那些能给企业带来丰厚利润的关键客户,并获得他们长久的信任和支持,谁就能获得满意的回报,进而赢得持续的竞争优势。 在航空业,客户关系管理的应用有其特别的原因。面对航空公司的管理需求,急需引入先进的客户关系管理理念。在航空公司引入电子商务后,公司关注的重点由提高部效率向尊重外部转移。而CRM理念正是基于对客户的尊重,要求公

司完整地认识整个客户生命周期,提供与客户沟通的统一平台,提高员工与接触的效率和反馈率。随着“以客户为中心"的客户关系管理技术在航空业的不断应用和发展,航空服务质量的改善提高的同时,产生了大量的客户数据,充分挖掘这些数据中隐藏的有用信息可以为航空公司的经营决策带来极大的帮助。二、应用价值与意义: 概括来讲,数据仓库与数据挖掘在航空公司CRM中的商业价值主要体现在以下三个方面: 1、有助于航空公司提高收益 一个成功的CRM系统可以给航空公司带来明显的收益增长,在客户的整个生命周期,最大化利润贡献。例如: (1)购买总量的增长,通过分析(市场购物篮分析)得到对航空公司货运客户的消费模式,找出有效的商品组合,实现交叉销售; (2)客户群体数量的增加,通过利润模型找出客户的一些共同特征,并通过聚类分析对客户进行分群,再通过模式分析预测得到潜在的客户群体以提高成功率。 (3)客户保持时间的增长,通过流失模型分析得到可能流失客户的,然后采取相应的预防措施降低客户流失率。 2、有助于航空公司寻找潜在客户 任何航空公司的营销资源都是有限的,不能针对所有客户采取营销活动。数据仓库和数据挖掘可以通过客户的行为分析,根据不同的属性和行为特征细分不同的群体。寻找潜在客户(prospecting),在市场营销方面,prospect指那些通过正确方式接近有可能成为客户的某个人,即潜在客户。数据挖掘在探查潜在

相关文档
相关文档 最新文档