文档视界 最新最全的文档下载
当前位置:文档视界 › 研究方法-因子分析

研究方法-因子分析

研究方法-因子分析
研究方法-因子分析

因子分析

前言

因子分析方法的实际作用已为广大实际工作所证实。但并非每次运用它都是成功的。有时,特别是针对多维变量所做的因子分析,难以有清晰的解释。因此,有的实际工作者开始怀疑因子分析方法的科学性。但同时,不同的人针对相同的数据所做的因子分析。解释其结果却又不尽相同。有的人通过因子分析能给出问题近乎完美的答案。于是,又有人称因子分析是一种“艺术”因子分析因此也变得神秘起来了。因子分析到底是艺术还是科学呢?

因子分析的统计思想

在实践中,往往收集到的数据是多指标的。各指标之间通常不是独立的,或多或少存在着一定程度的关系。因子分析的目的是通过少数几个变量去描述这众多变量见的协方差关系。这少数几个变量是潜在的,但不能观察的。我们称之为因子。

1以相关为基础

在所收集到的众多变量中,必定存在某些是高度相关的,把这些高度相关的变量组成各组。这样同一组内变量具有高度相关,而与其他的各组变量却只有较小的相关或是不相关。这些组内高度相关的变量可以设想是一个共同的东西在影响着它们而导致高度相关。这个共同的东西称之为公共因子。如前所述,这些公共因子是潜在但不能观测的。

2通过协方差来实现

因子分析是以相关为基础,从协方差或相关阵开始把大部分变异归结为少数几个公共因子所为。把剩余的部分称为特殊因子。

3作用:寻求基本结构、数据化简

通过因子分析,可以用几个较小的有实际意义的因子来反映原来数据的基

本结构。例如:

例1:Linden 对二战以来奥运会十项全能比赛的得分作了研究,将100

米、跳远、铅球、跳高、400米、110米栏、铁饼、撑杆跳、标枪、1500米的成绩归结到短跑速度、爆发性臂力、爆发性腿力、耐力四个方面。

例2:公司面试,从简历、外貌、专业能力、讨人喜欢的能力、自信

心、洞察力、诚实、理解力等15个方面进行打分,最后归结外申请者的外露能力、受欢迎程度、工作经验、专业能力这四个方面

通过因子分析,可以用少数几个因子代替原来的变量做回归分析÷据类分析等。

正交因子模型分析

1模型的直观描述

既然因子分析的目的是用少数几个称之为公共因子的因子去描述众多变量间协方差关系。巡着这一思路,针对每一个具体的变量。去掉共同的东西剩余的变异部分由两个部分组成,一个是公共因子的贡献的部分,另一个就是剩余的部分,即特殊因子。须提醒一下,这里特殊因子与公共因子不应相关。直观上,若公共因子与特殊因子相关则说明特殊因子中还可以抽出共同的东西到公共部分。由此可见模型中公共因子与特殊因子是不相关的。

2正交因子模型的数学表达式

考虑p 个成分的随机观测向量x 。因子模型要求线性相依,其中有m 个公共

因子f1 f 2…..fm 和特殊因子

p

εεεΛ21,组成。具体如下:

1

)

1)((???+=

p m m P AF X ε

如果fi 与fj 相互独立(i ≠j ),则称该因子模型为正交因子模型。正交因子模型具有如下

是简单相关数

为特殊因子为公因子,其中pm i i p m pm p p p m m m m a f f a f a f a x f a f a f a x f a f a f a x ,2211222221212112121111εεεε???????+++=+++=+++=ΛM

ΛΛ

特性:

x 的方差可表示为:

222

12()1i i i im i Var x a a a δ==++++g g g

222212i i i i m

h a a a =+++g g g

(1)hi2是m 个公共因子对第i 个变量的贡献,称为第i 个共同度(communality )或共性方差,公因子方差(common variance )

(2)δi 称为特殊方差(specific variance ),是不能由公共因子解释的部分 因子负载aij 是随机变量xi 与公共因子fj 的相关系数。

2

21

1,2,...,p

j

i j

i g

a

j m

==

=∑

称gj2为公共因子fj 对x 的“贡献”,是衡量公共因子fj 重要性的一个指标。

3因子分析的步骤

● 输入原始数据xn*p ,计算均值和方差,进行标准化计算 ● 求样本相关系数矩阵R=(rij)p*p

● 求相关系数矩阵的特征根λi (λ1,λ2,…,λp>0)和相应的标准正交的特征

向量B, 求出负载矩阵b a i

i

i

λ=

,负载矩阵还有其他的求法:

1. 最小二乘法

2. 极大似然估计法

3. 主轴因子法

4. a 法因子提取法

5. 映象分析法

● 确定公共因子数:

1. 由特征根大于1所对应的长度为以的特征响亮,来计算公共因子的负载

2.碎石准则:把特征更从大到小绘在坐标图上,把特征根减少速度变缓的

特征根都删掉。

●计算公共因子的共性方差hi2

●对载荷矩阵进行旋转,以求能更好地解释公共因子

●对公共因子作出专业性的解释

4正交因子模型的几点解释

1、“正交因子模型”中“正交”一词。意味着各个公共因子间是不相关的。这一点是来自于因子分析初始思想。在“正交因子模型”统计思想中曾提到:“组内高度相关”而“组间相关性很小”这表明各个组受制于不同的因子。到底小到什么程度才算“小”呢?这是个模糊的概念,在实际应用中不易确定。于是表现在模型中就把它理想化为不相关即公共因子间是独立的。

2、因子分析不易解释的原因

许多实际工作者在按正交因子模型做完因子分析后,总会得到摸棱两可的解释。其根本原因出在“正交”上。正交因子模型是个理想化的模型。它要求公共因子间不相关,然而现实问题中,这些公共因子并非完全不相关的(可能相关性很小)。这样就出现了现实问题同模型间的矛盾。依因子分析模型把事实上存在关系的变量“强行”让它们不相关。但用正交模型做的结果,却要用实际收集到的数据去解释。于是,实际问题与模型的矛盾导致解释上的麻烦。这一点我们将在后面的例中看到。

因子旋转与因子解释的艺术

在实际应用因子分析中出现了难以解释的现象,根本原因是模型同实际数据的矛盾,而其直接原因表现在因子对变量的贡献不明确。我们可以通过下图来说明这一情况,于是设想在不改变因子协方差结构的情况下,通过旋转坐标轴来实现这一目的。(见图1)

1.旋转的理论基础

?通过对载荷阵乘以一正交阵来实现因子旋转。变换坐标轴以后的因子模型的协方差结构与原来相同,这为因子旋转提供了坚实的理论基础。

旋转的目的是以达到较理想的解释,通常通过最大方差旋转来实现。此

外因子旋转还有:斜交旋转、四分旋转等等。

图1

3因子解释的艺术

对相同的数据做因子分析,结果会因人而异。解释的是否妥当与应用者本人对因子分析把握程度有关也与分析者对实际问题所涉及的专业知识有关。下面以对二战后,奥运会十项全能运动数据的因子分析为例来说明因子分析的艺术。

每项得分经标准化后所得的相关阵如下:

从主成分因子分析发现前四个特征值为 3.78 1.52 1.11 0.91下旋转前后起因子载荷与特殊方差对比如下表:

未旋转时,因子解释:我们看到因子F1上唯有1500米有较大的载荷,而在其余的项目上载荷均较小,因此,可以称F1为耐力因子。在第二因子F2上,铅球,铁饼,标枪有较大的载荷因为这些项目都是投掷项目,可以归结为手臂强壮因子。在第三因子F3上有较大载荷的是100米,400米,可以命之为速度因子。但F4上各项均有不大的载荷,这样F4的因子就不好命名。

旋转后,F1*上有较大载荷的是铅球,铁饼,都与手臂爆发力有关,可以将因子F1*命名感为爆发性臂力强度因子。而400米,100米在F2*上有高载荷,因为这两项主要反映跑的速度的,故命之为跑的速度因子。F3*上有高载荷的是跳远,跳高,110米栏,撑杆跳高。通过比较发现这些项目主要反映腿部爆发力的,可以命之为腿部爆发性强度因子。在F4*上唯有1500米有较高的载荷可以命之

为跑的耐力因子。

比较旋转前后,可以看到旋转后载荷的重新分配更易于因子的解释。尽管,F1*和F2*上也有不易解释的高载荷现象(通常大于0.4都看成有较大的载荷),但同旋转前比较起来要清晰多了。我们看以下旋转前,表中的载荷分布情况,跳远和跳高在F2均有较大的载荷。另外,在F3中跳远和110米栏均有高载荷,这些在旋转前都不能有清晰的解释。更甚至因子F4中均没有较大的载荷,所以不能解释。

须提醒的一点是,跳高,110米栏,撑杆跳高,标枪等几个项目上,无论是旋转前还是旋转过以后均有较大的特殊方差(大于0.4)这说明,前几个公共因子在解释这些项目上并不理想。从这几项体育运动本身的特点来看,这几项均属于技术性较强的项目,成绩的好坏的关键在技术是否完善。可能这几项有着其他几项所不具备的因子。因此才出现特殊方差较大的情况。由分析可以看出,称因子分析是一种“艺术”亦不为过。

小结

通过对正交因子模型的分析,说明了正交因子模型的“理想化”同现实中的数据相矛盾导致了因子分析结果在解释上的困难。表现在形式上就是载荷的分布不明确,给因子命名带来了麻烦。

客观上,在多数情况下实施因子旋转可以使得结果有个较清晰的解释。通常遵循方差最大准则做因子旋转直到因子分析在解释上较满意为止。但这不能从根本上消除其矛盾,从文中例子可以看出,无论怎么旋转,总会有部分解释不是很清爽,这是很正常的。我们期待因子旋转后,能使较重要的变量有清晰的解释就够了。

因子解释的是否恰当,不仅与数据本身性质有关,而且与应用者对专业知识的掌握以及因子分析技巧掌握程度有关。须提醒的是,因子分析以相关为基础的,故有些数据不宜于因子分析,所以建议分析者在做因子分析前应对数据检验是必要的。

用SPSS做因子分析1.打开数据文件

2.进入因子分析界面

3.选择题项

4.选择要输出的图

5.输出结果

建议的参考文献

[1]马庆国《管理统计》科学出版社2002年第一版

[2]李怀祖《管理研究方法》西安交通大学出版社2003年第二版

[3]Richard A.Johson (陆旋译) [M]实用多元统计分析北京:清华大学出版社2000

[4]张尧庭[M] 多元统计分析引论北京:科学出版社1982

WRKY转录因子表达谱的研究进展

基因组学与应用生物学,2009年,第28卷,第4期,第803-808页Genomics and Applied Biology,2009,Vol.28,No.4,803-808 专题介绍Review WRKY 转录因子表达谱的研究进展 张颖蒋卫杰* 凌键 余宏军 王明 中国农科院蔬菜花卉研究所,北京,100081*通讯作者,jiangwj@https://www.docsj.com/doc/95241156.html, 摘 要环境胁迫对植物的生长发育造成重大影响,因此,提高植物的抗逆性是农业面临的重要问题。自然 界中存在多种抗逆基因,如抗盐基因、 抗旱基因、抗寒基因等。利用植物基因工程和分子生物学技术提高植物对逆境的适应性及其抗逆分子机制的研究已成为当今热点。WRKY 转录因子是一类参与多种胁迫反应的诱导型转录因子,本文综述了WRKY 转录因子家族的结构特点、WRKY 转录因子在非生物胁迫(高温、低温、 干旱、盐)、外源物质(激素及O 3)处理及生物胁迫下的表达模式。各种胁迫下的表达谱均呈现不同特点,这些差异表达可能与它们所行使的不同生物学功能有关。 关键词 WRKY 转录因子,表达谱,非生物胁迫,RT-PCR Advance on Expression Profile of Transcription Factor WRKY Zhang Ying Jiang Weijie * Ling Jian Yu Hongjun Wang Ming Institue of Vegetable and Flower,Chinese Academy of Agricultural Sciences,Beijing,100081*Corresponding author,jiangwj@https://www.docsj.com/doc/95241156.html, DOI:10.3969/gab.028.000803 Abstract Environmental stress has an adverse effect on the growth of plants and the productivity of crops,so it is very important for agriculture to improve plant resistance to stress.Expression of a variety of genes is induced by these stresses in various plants,such as salt-resistant,drought-resistant,chilling-resistant genes and so on.It has become a hotspot to enhance plant adaptability to stress and study its molecular mechanism by plant genetic engi-neering and molecular biological technology.WRKY transcription factor is an inducible transcription factor which is involved in a variety of stress responses.In this paper,the structural characteristics of WRKY transcription factor family,and the expression profile of WRKY transcription factors in abiotic stresses (heat,cold,drought and salt),in exogenous substances (hormones and O 3)and in biotic stresses are reviewed.The expression profile in different stressshowed different characteristics,which may be related to the different biological functions of WRKY tran-scription factors. Keywords WRKY transcription factor,Expression profile,Abiotic stress,RT-PCR https://www.docsj.com/doc/95241156.html,/doi/10.3969/gab.028.000803 基金项目:本研究由国家973计划项目(2009CB119001)资助 植物对胁迫的响应是一种积极主动的应激过程。植物接受胁迫信号后,通过一系列的信号传递途径,最终诱导相关基因的表达。转录因子在基因表达的调控过程中起着重要作用,它们与靶基因上游的各种特定DNA 元件结合,激活或抑制靶基因的转录活性,以调控其时空特异性表达。WRKY 类转录因子是一类研究较多的转录因子,它广泛的参与生物、非生物胁迫应答反应、信号分子传递、植物衰老和器官 发育等一系列生理活动(刘戈宇等,2006)。WRKY 转 录因子最早是在甜薯中发现(Ishiguro and Nakamura,1994),随后在多种植物中陆续发现了大量的WRKY 转录因子。WRKY 基因家族通常具有一个或者两个WRKY 域,WRKY 域能特异的与靶基因启动子区的W-box 结合,从而调控靶基因的表达(Rushton et al.,1995)。近年来,基于传统的分子生物学方法研究WRKY 基因功能的基础上,利用各种物种基因组数

植物MYB类转录因子研究进展

综 述R evie w 2002201215收到,2002201228接受。 国家重点基础研究发展规划项目(973项目G 1999011604)资助。3联系人,E 2mail :zywang @https://www.docsj.com/doc/95241156.html, ,Tel :02126404209024423。 植物MYB 类转录因子研究进展 陈 俊 王宗阳3 (中国科学院上海植物生理研究所,上海200032) 摘要:植物M Y B 转录因子以含有保守的M Y B 结构域为共同特征,广泛参与植物发育和代谢的调节。含单一M Y B 结构域的M Y B 转录因子在维持染色体结构和转录调节上发挥着重要作用,是M Y B 转录因子家族中较为特殊的一类。含两个M Y B 结构域的 M Y B 转录因子成员众多,在植物体内主要参与次生代 谢的调节和控制细胞的形态发生。含3个M Y B 结构域的M Y B 蛋白与c 2M Y B 蛋白高度同源,可能在调节细胞周期中起作用。 关键词:M Y B 结构域,M Y B 转录因子,组合调控学科分类号:Q74 随着多种模式生物基因组计划的完成,如何 从这些浩如烟海的DNA 序列中揭示基因的功能以及它们有序的时空表达,已成为后基因组时代的重要课题。人类基因组计划的完成显示人类只有30000~50000个基因,生命体是如何以如此少的 基因完成如此复杂的生命活动的呢?很重要的一点在于基因的表达调控,使得每一个基因能适时、适地、适量地表达,并且使得某些基因可以产生多种功能各异的蛋白质。真核基因的表达随细胞内外环境的改变而在不同层次上受到精确调控,如染色体DNA 水平、转录水平及转录后水平的调控等。而转录水平的调控发生在基因表达的初期阶段,是很多基因表达调控的主要方式。转录水平的调控指一类称为转录因子(有时又称反式作用因子)的蛋白质特异结合到靶基因调控区的顺式作用元件上,或调节基因表达的强度,或应答激素刺激和外界环境胁迫,或控制靶基因的时空特异性表达。 转录因子通常是一种模块化的蛋白,一般由几个独立的功能域组成,包括DNA 结合功能域,转录激活功能域,蛋白2蛋白相互作用功能域,信号分子结合功能域,核定位信号区等。根据DNA 结合功能域的结构,转录因子可分为以下几类:bHL H (碱性螺旋2环2螺旋)、bZIP (碱性亮氨酸拉链)、homeodomain 蛋白、MADS 2box 蛋白、zinc 2finger 蛋 白、Myb 蛋白、Ap2/EREBP 蛋白、HSF 蛋白、HM G 蛋白和A T hook 蛋白等(Schwechheimer 和Bevan 1998)。 本文试以植物中数量最多、功能最多样化的M Y B 类转录因子为例,对该类转录因子的研究历 史和现状作一简单介绍。阐述了M Y B 转录因子的结构、功能和进化,并举例说明M Y B 类转录因子如何与其它转录因子家族成员相互作用,通过组合调控(combinatorial control )的方式实现对靶基因的精密调控。 1 MYB 类转录因子 M Y B 类转录因子家族是指含有M Y B 结构域 的一类转录因子。M Y B 结构域是一段约51~52个氨基酸的肽段,包含一系列高度保守的氨基酸残基和间隔序列(图1)。首先是每隔约18个氨基酸规则间隔的色氨酸(W )残基,它们参与空间结构中疏水核心的形成。有时色氨酸残基会被某个芳香族氨基酸或疏水氨基酸所取代,尤其是在植物R2R32M Y B 转录因子中,R3M Y B 结构域的第一 个色氨酸经常被亮氨酸、异亮氨酸或苯丙氨酸所取 代。其次,在每个保守的色氨酸前后都存在一些高度保守的氨基酸,例如在第一个色氨酸的C 2末端通常是一簇酸性氨基酸(图1)。正是上述这些保守的氨基酸残基使M Y B 结构域折叠成螺旋2螺旋2转角2螺旋(helix 2helix 2turn 2helix )结构。 1982年K lempnauer 等在禽成髓细胞瘤病毒(avian myeloblastosis virus )中鉴定出一个能直接导致急性成髓细胞白血病(acute myeloblastic leukemia )的癌基因,称为v 2myb ,不久发现在正常动物细胞中也存在相应的原癌基因c 2myb ,随后研究结果表明v 2M Y B ,c 2M Y B 蛋白都定位在细胞核中,与核基质和染色质紧密相连,而且都具有DNA 1 8植物生理与分子生物学学报,J ournal of Plant Physiology and Molecular Biology 2002,28(2):81-88

研究方法-因子分析

因子分析 前言 因子分析方法的实际作用已为广大实际工作所证实。但并非每次运用它都是成功的。有时,特别是针对多维变量所做的因子分析,难以有清晰的解释。因此,有的实际工作者开始怀疑因子分析方法的科学性。但同时,不同的人针对相同的数据所做的因子分析。解释其结果却又不尽相同。有的人通过因子分析能给出问题近乎完美的答案。于是,又有人称因子分析是一种“艺术”因子分析因此也变得神秘起来了。因子分析到底是艺术还是科学呢? 因子分析的统计思想 在实践中,往往收集到的数据是多指标的。各指标之间通常不是独立的,或多或少存在着一定程度的关系。因子分析的目的是通过少数几个变量去描述这众多变量见的协方差关系。这少数几个变量是潜在的,但不能观察的。我们称之为因子。 1以相关为基础 在所收集到的众多变量中,必定存在某些是高度相关的,把这些高度相关的变量组成各组。这样同一组内变量具有高度相关,而与其他的各组变量却只有较小的相关或是不相关。这些组内高度相关的变量可以设想是一个共同的东西在影响着它们而导致高度相关。这个共同的东西称之为公共因子。如前所述,这些公共因子是潜在但不能观测的。 2通过协方差来实现 因子分析是以相关为基础,从协方差或相关阵开始把大部分变异归结为少数几个公共因子所为。把剩余的部分称为特殊因子。 3作用:寻求基本结构、数据化简 通过因子分析,可以用几个较小的有实际意义的因子来反映原来数据的基本结构。例如: 例1:Linden对二战以来奥运会十项全能比赛的得分作了研究,将100米、跳远、铅球、跳高、400米、110米栏、铁饼、撑杆跳、标枪、1500米的成绩归结到短跑速度、爆发性臂力、爆发性腿力、耐力四个方面。 例2:公司面试,从简历、外貌、专业能力、讨人喜欢的能力、自信心、洞察力、诚实、理解力等15个方面进行打分,最后归结外申请者的外露能力、受欢迎程度、工作经验、专业能力这四个方面 通过因子分析,可以用少数几个因子代替原来的变量做回归分析÷据类分析等。 正交因子模型分析 1模型的直观描述

转录因子Oct-4的研究进展

第6期农垦医学第31卷 转录因子Oct-4的研究进展 符毓豪王菊谢松松周宗瑶+ (石河子大学医学院组织胚胎学教研室/石河子大学医学院新疆地方 与民族高发病教育部重点实验室,新疆石河子,832002) 【摘要】oct4是维持干细胞多能性和自我更新的转录因子,它通过结合靶基因调控区,选择性地抑制分化基因表达或促进多能性基因表达。通常只在多能干细胞中表达,在分化细胞中不表达;它最终决定干细胞是保持多能性还是分化,以及向哪个方向分化。此外。Oct-4在生殖细胞肿瘤研究中也发挥重要作用。 【关键词】0ct4;多能性干细胞;研究进展 中图分类号:Q754文献标识码:A TheresearchdevelopmentoftranscriptionalfactorOct-4 FUYu-hao,WANGJu,XIESong—song,ZHOUZong—yao术 (DepartmentofHistologyandEmbryology,ShiheziUniversityschoolofmedicine,shiheziXinjiang,832002) 【Abstract】OctMisacriticaltranscriptionalfactomtokeeppluripotencyandself-renewalofstemceilsinvivoandinvitm,anditusuallyexpressasonlyinpluripotentcells.Itbindstotheregulatoryregionsoftargetedgene.Itfinallydeter-minesthecellsdestiny:keepingpluripotencyorturningtodifferentiation.Also,itplaysanimportantpartintheGermcelltumor. 【Keywords】Oct4;pluripotent;development Oct-4是具有较强特异性的胚胎干细胞标志物,它参与胚胎发育过程中多向性分化的调节。胚胎干细胞自我更新分子机制是干细胞研究的前沿及热点课题。除外源性信号如LIF、BMP、Wnt能维持干细胞的未分化状态外,转录因子Oct-4特异性表达于全能胚胎干细胞,并与其它转录因子如Sox2一起构成调控网络,共同调控与胚胎干细胞多能性相关的一系列重要分子,是保持胚胎干细胞自我更新和多潜能性的关键分子。 1Oct-4的结构 Oct-4是由Pou5F1基因编码产生的,是含POU(Pit.Oct—Unc)结构域的转录因子家族中的一员。Oct-4基因定位于人类染色体6p21.3,其编码的蛋白Oct-4(也叫Oct-3)是一种POU转录因子,属于V类POU蛋白。POU转录因子是DNA结合蛋白,由POU特异域(POUS)和POU同源域(POUH)的双枝结构构成。POU特异域位于N端,由富含脯氨酸和酸性残基的75个氨基酸组成;POU同源域位于c端,由富含脯氨酸、丝氨酸和苏氨酸的60个氨基酸组成。这两个亚区间通过含有15—56个氨基酸组成的易变区相连接,经螺旋一转角一螺旋结构与DNA结合位点发生联系,激活启动子或增强子区域内带有顺式反应元件基因的转录。后者的特征性结构为ATGCAAAT八聚体结构域,又称为Oct结构。它通过结合含ATGCAAAT的八聚体结构域而活化相应靶基因,激活或抑制干细胞分化过程中基因表型的转变。 2Oct-4的上游调控机制 Oct-4的表达由定位于其基因上游的顺式作用元件在转录水平进行调控。①增强子:Oct-4基因有两个增强子DE和PE。发育中Oct-4的表达依次由DE(桑椹胚、ICM)_÷PE(上胚层)一DE(PGCs)控 基金项目:兵团科技攻关计划项目项目编号:2006GG33 t通讯作者:周宗瑶,组织胚胎学教授,从事生殖与发育方面研究。?542?

多元数据处理——因子分析法

多元数据处理 ---因子分析方法 多元数据处理主要包括多元随机变量,协方差分析,趋势面分析,聚类分析,判别分析,主成分分析,因子分析,典型相关分析,回归分析以及各个分析方法的相互结合等等。本文主要针对其中的因子分析方法展开了论述,并举了一个因子分析法在我国房地产市场绩效评价中的应用实例。 第一章因子分析方法概述 1.1因子分析的涵义 为了更全面和准确的测量和评估对象的特征,在实际的应用中,我们往往尽可能多的选用特征指标进行系统评估,选取的指标越多,就越能全面、客观的反映评价对象的特征。选取众多指标的同时也带来了统计分析的困难:一、不同的指标,不同重要程度需要赋予不同的权重,而靠主观的评价避免不了一些失误与错误。二、收集到的指标之间可能存在较大的相关性,大量收集指标带来了人力、物力和财力的浪费。而因子分析方法则较好的解决了上述问题。 因子分析[1]是一种多元统计方法,该方法起源于20世纪初Karl Pearson 和Charles Spearman 等人关于心理测试的统计分析,它的核心是用最少的相互独立的因子反映原有变量的绝大部分信息。[2]通过分析事物内部的因果关系来找出其主要矛盾,找出事物内在的基本规律。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但是,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,使不同组内的变量相关性较低[3]。对于所研究的问题就可试图用最少个数的所谓因子的线性函数与特殊因子之和来描述原来观测的每一变量[4]。因子变量的特点:第一,因子变量的数量远小于原指标的数量,对因子变量的分析能够减少分析的工作量;第二,因子变量不是原有变量的简单取舍,而是对原有变量的

植物bHLH转录因子研究进展_刘文文

生物技术进展 2013年第3卷第1期7 11 Current Biotechnology ISSN 2095-櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅殯 殯 殯 殯 2341 进展评述 Reviews 收稿日期:2012-12-12;接受日期:2012-12-31基金项目:国家自然科学基因项目(30970221)资助。 作者简介:刘文文,硕士研究生,研究方向为玉米氮利用效率生理学及拟南芥抗逆作用机制。*通讯作者:李文学,研究员,博士,主要 从事小RNA 功能及植物抗逆机制研究。E- mail :liwenxue@caas.cn 植物bHLH 转录因子研究进展 刘文文,李文学 * 中国农业科学院作物科学研究所,北京100081摘 要:bHLH (basic helix-loop-helix protein )是真核生物中存在最广泛的一大类转录因子,其通过特定的氨基酸残基与 靶基因相互作用,进而调节相关基因的表达。系统发育分析表明植物的bHLH 转录因子为单源进化。bHLH 转录因子不仅对于植物的正常生长和发育必不可缺,同时参与植物适应多种逆境胁迫的反应过程。然而,由于植物bHLH 家族成员众多、 参与的生物过程复杂,对于其了解还不是十分清楚。本文针对植物bHLH 的进化、结构特点、生物功能,尤其是在适应逆境胁迫中作用等的最新研究结果进行综述,以期为进一步深入了解植物bHLH 转录因子的功能提供理论参考。关键词:bHLH ;结构特点;生物学功能DOI :10.3969/j.issn.2095-2341.2013.01.02 Progress of Plant bHLH Transcription Factor LIU Wen-wen ,LI Wen-xue * Institute of Crop Science ,Chinese Academy of Agricultural Sciences ,Beijing 100081,China Abstract :Basic helix-loop-helix proteins (bHLHs )are found throughout the eukaryotic kingdom ,and constitute one of the largest families of plant transcription factors.They can regulate gene expression through interaction with specific motif in target genes.Phylogenetic analysis indicates that plant bHLHs are monophyletic.bHLHs are necessary for plant normal growth and development ,and play important roles in abiotic-stress responses.However ,we know little about their origins ,structures ,and functions due to the large quantities and complexity of plant bHLH family.This paper reviews on the evolution ,structure characteristics ,biological function of plant bHLHs ,especially their functions in adapting to abiotic-stress tolerance ,so as to provide a theoretical reference for further research on the function of plant bHLH transcription factors.Key words :bHLHs ;structural features ;biological function bHLH 转录因子广泛存在于真核生物。自 bHLH 发现以来,越来越多的研究表明该转录因子对于真核生物的正常生长及发育必不可缺。在酵母等单细胞真核生物中,bHLH 参与染色体的分离、新陈代谢调节等过程[1] ;在动物中,bHLH 主要与感知外界环境、调节细胞周期、组织分化等 相关 [2 4] 。植物中bHLH 家族成员数量众多,仅 次于MYB 类转录因子,譬如在拟南芥中有超过140个bHLH 转录因子,水稻中则超过160个。家族的庞大不可避免的造成功能冗余,使研究单个bHLH 转录因子的功能相对困难。本文拟对有限的植物bHLH 家族研究结果,尤其是参与植物 适应逆境胁迫过程中的作用进行综述,以期为进 一步深入了解植物bHLH 转录因子的功能的提供理论参考。 1 植物bHLH 的结构特点、家族分类及 进化 1.1 bHLH 的基本结构 bHLH 转录因子因含有bHLH 结构域而得名。bHLH 结构域由50 60个氨基酸组成,可分为长度为10 15个氨基酸的碱性氨基酸区和40个氨基酸左右的α-螺旋-环-α-螺旋区(HLH 区)。

(完整版)因子分析法基本原理

1.因子分析法基本原理 在对某一个问题进行论证分析时,采集大量多变量的数据能为我们的研究分析提供更为丰富的信息和增加分析的精确度。然而,这种方法不仅需要巨大的工作量,并且可能会因为变量之间存在相关性而增加了我们研究问题的复杂性。因子分析法就是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。这样我们就可以对原始的数据进行分类归并,将相关比较密切的变量分别归类,归出多个综合指标,这些综合指标互不相关,即它们所综合的信息互相不重叠。这些综合指标就称为因子或公共因子。 因子分析法的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。这样,就能相对容易地以较少的几个因子反映原资料的大部分信息,从而达到浓缩数据,以小见大,抓住问题本质和核心的目的。 因子分析法的核心是对若干综合指标进行因子分析并提取公共因子,再以每个因子的方差贡献率作为权数与该因子的得分乘数之和构造得分函数。因子分析法的数学表示为矩阵:B AF X +=,即: ????? ?? ??++++=++++=++++=++++=p k pk p p p p k k k k k k f f f f x f f f f x f f f f x f f f f x βααααβααααβααααβααααΛΛΛΛΛΛ332211333332321313223232221212113132121111 (k ≤p)………………(1式) 模型中,向量X ()p x x x x ,,,,321Λ是可观测随机向量,即原始观测变量。F ()k f f f f ,,,,321Λ是X ()p x x x x ,,,,321Λ的公共因子,即各个原观测变量的表达式中共同出现的因子,是相互独立的不可观测的理论变量。公共因子的具体含义必须结合实际研究问题来界定。A ()ij α是公共因子F ()k f f f f ,,,,321Λ的系数,称为因子载荷矩阵,ij α(i=1,2,.....,p;j=1,2,....,k)称为因子载荷,是第i 个原有变量在第j 个因子上的负荷,或可将ij α看作第i 个变量在第j 公共因子上的权重。ij α是x i 与f j

转录因子功能预测新方法

TF-coEx:一种基于基因共表达网络的转录因子功能预测新方法 TF-coEx: Transcription Factor Function Prediction based on Gene Co-e xpression Network收藏本页导出题录 分享 作者:陈靖祺[1] 柳靓婧[1,2] 田卫东[1] CHEN Jing-qi,LIU Jing-jing,TIAN Wei-dong (1.Institute of Biostatistics,Fudan University,Shanghai 200433,China ; 2.Institute of Plant Biology,Fudan University,Shanghai 200433,China)机构地区:[1]复旦大学生物统计研究所,上海200433 [2]复旦大学植物科学研究所,上海200433 出处:《复旦学报:自然科学版》 SCI CAS CSCD 2012年第51卷第6期 803-812页,共10页《Journal of Fudan University (Natural Science)》 摘要:转录因子在细胞内的各种生物通路中起着重要的调控作用.在人基因组中有1000多个注释为DNA结合蛋白的编码基因,其中部分基因已被证明为转录因子,对它们调控的生物通路也相对比较清楚.其余的大多数DNA结合蛋白可能是潜在的转录因子,但它们的功能并不明确.鉴于转录因子与其所调控的靶基因在基因表达水平上密切关联,本文从基因共表达网络出发建立了]。个预测转录因子功能的新方法——co-expression-based transcription factor function prediction(TF-coEx).首先,利用大规模高通量表达芯片数据建立了不同条件下人全基因组的基因共表达网络,并通过网络划分获得包含转录因子的一系列基因共表达模块.之后,通过对模块内基因的功能富集分析,并整合不同网络的模块功能富集结果,对所有潜在的转录因子编码基因进行了功能预测.通过与已知功能的对比,我们证明TF-coEx的预测效果显著好于随机.此外,对预测分值最大的50个结果的文献验证显示,54%的预测有实验证据支持.方法的预测结果为进一步设计具体的实验来验证潜在转录因子的功能提供了方向.

(完整版)因子分析法基本原理.docx

1.因子分析法基本原理 在 某一个 行 分析 , 采集大量多 量的数据能 我 的研究分析提供更 丰富的信息和增加分析的精确度。 然而, 种方法不 需要巨大的工 作量,并且可能会因 量之 存在相关性而增加了我 研究 的复 性。 因子分析法就是从研究 量内部相关的依 关系出 , 把一些具有 复 关系的 量 少数几个 合因子的一种多 量 分析方法。 我 就可以 原始的数据 行分 并,将相关比 密切的 量分 , 出多个 合指 , 些 合指 互不相关, 即它 所 合的信息互相不重叠。 些 合指 就称 因子或公共因子。 因子分析法的基本思想是将 量 行分 , 将相关性 高, 即 系比 密的分在同一 中, 而不同 量之 的相关性 低, 那么每一 量 上就代表了一个基本 构, 即公共因子。 于所研究的 就是 用最少个数的不可 的所 公共因子的 性函数与特殊因子之和来描述原来 的每一分 量。 ,就能相 容易地以 少的几个因子反映原 料的大部分信息, 从而达到 数据,以小 大,抓住 本 和核心的目的。 因子分析法的核心是 若干 合指 行因子分析并提取公共因子, 再以每个因子的方差 献率作 数与 因子的得分乘数之和构造得分函数。 因子分析法的数学表示 矩 : X AF B ,即 : x 1 11 f 1 1 2 f 2 1 3 f 3 1k f k 1 x 2 21 f 1 22 f 2 23 f 3 2 k f k 2 x 3 31 f 1 32 f 2 33 f 3 3k f k 3 (k ≤p)?????? (1 式) x p p1 f 1 p 2 f 2 p 3 f 3 pk f k p 模型中,向量 X x 1, x 2 , x 3 , , x p 是可 随机向量,即原始 量。 F f 1 , f 2, f 3 , , f k 是X x 1, x 2 , x 3, , x p 的公共因子,即各个原 量的表达式中 共同出 的因子, 是相互独立的不可 的理 量。 公共因子的具体含 必 合 研究 来 界定。 A ij 是公共因子 F f 1, f 2 , f 3, , f k 的系数,称 因子 荷矩 , ij (i=1,2,.....,p;j=1,2,....,k)称 因子 荷,是第 i 个原有 量在第 j 个 因子上的 荷,或可将 ij 看作第 i 个 量在第 j 公共因子上的 重。 ij 是 x i 与 f j

ERF转录因子

一、乙烯信号转导通路 乙烯是一种非常重要的植物激素。乙烯在植物生长发育和适应生物和非生物胁迫反应中起到了非常重要的作用。种子萌发、开花、叶片衰老、果实成熟、根瘤、细胞程序性死亡以及对非生物胁迫和病原体入侵的反应等生理过程都与乙烯密切相关。 乙烯信号转导通路的最上游是位于内质网膜上的5个乙烯受体,分别被称为:ETR1、ETR2、ERS1、ERS2和EIN4。位于乙烯受体下游的是一个负调节因子,蛋白激酶CTR1。CTR1蛋白激酶通过与乙烯受体相结合定位在内质网上。在没有乙烯存在的条件下,CTR1和受体的结合会协同抑制下游乙烯信号途径。在CTR1负调控因子下游是一个正调控因子EIN2。EIN2基因发生功能缺失突变会产生乙烯不敏感表型,显示出EIN2在乙烯信号通路中起到了核心作用。EIN2的半衰期很短,两个F-Box蛋白ETP1和ETP2负责调控EIN2的泛素化降解。位于EIN2下游的是正调控的转录因子家族EIN3及5个EILs。研究发现,他们同样是受泛素化途径降解的,负责调控EIN3及EILs泛素化降解的F-Box蛋白是EBF1和EBF2。EBF5是一种外切核酸酶它能够通过促进EBF1和EBF2的mRNA的降解来拮抗这两个蛋白对EIN3的负反馈调控。EIN3和EIL1通过启动 乙烯信号转导途径示意图 转录级联反应来激活下游乙烯响应基因的表达。

二、乙烯响应因子(ethylene response factor、ERF)的结构特点及生物信息学分析 ERF基因家族是一个很大的转录因子家族,属于AP2/ERF转录因子超家族。Ohme-Takagi和Shinshi研究发现,GCC box是植物乙烯响应的DNA序列元件;同时他们在烟草(Nicotiana tabacuum)中发现了能特异性结合GCC box元件的数个乙烯响应元件结合蛋白(EREBPs),并发现,EREBPs同GCC元件相结合的结构域是59个保守的氨基酸残基。AP2/ERF转录因子超家族的共同特征是都具有保守的AP2/ERF结构域。根据AP2/ERF结构域的个数以及是否含有其他的结构域,将AP2/ERF转录因子超家族分为三个家族:AP2家族,含有两个重复的AP2/ERF结构域;ERF家族,只含有一个AP2/ERF结构域;RA V家族,除了含有一个AP2/ERF结构域以外,还有另外的一个B3结构域。另外,根据AP2/ERF 结构域保守氨基酸的不同,又将ERF转录因子家族分为ERF亚家族和CBF/DREB亚家族。Sakuma等根据DNA结合结构域的序列相似性将CBF/DREB 亚家族分为6个group:A-1~A-6,将ERF亚家族分为6个group:B-1~B-6。 ERF转录因子能够识别两种DNA序列顺式作用元件,即GCC box和CRT/DRE 元件。GCC box的保守序列为AGCCGCC。ERF转录因子的N端的59个氨基酸残基是识别GCC box所必须的。Allen等研究了ERF结构域的3D结构,发现ERF结构域中有一个三条链的反向平行的β折叠和一个α螺旋,通过β折叠与DNA顺式元件相结合。Hao等发现,GCC box的第一个G、第四个G ERF结构域的三级结构

方法:因子分析法

因子分析基础理论知识 1 概念 因子分析(Factor analysis ):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 主成分分析(Principal component analysis ):是因子分析的一个特例,是使用最多的因子提取方法。它通过坐标变换手段,将原有的多个相关变量,做线性变化,转换为另外一组不相关的变量。选取前面几个方差最大的主成分,这样达到了因子分析较少变量个数的目的,同时又能与较少的变量反映原有变量的绝大部分的信息。 两者关系:主成分分析(PCA )和因子分析(FA )是两种把变量维数降低以便于描述、理解和分析的方法,而实际上主成分分析可以说是因子分析的一个特例。 2 特点 (1)因子变量的数量远少于原有的指标变量的数量,因而对因子变量的分析能够减少分析中的工作量。 (2)因子变量不是对原始变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在显着的线性相关关系,对变量的分析比较方便,但原始部分变量之间多存在较显着的相关关系。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。 在保证数据信息丢失最少的原则下,对高维变量空间进行降维处理(即通过因子分析或主成分分析)。显然,在一个低维空间解释系统要比在高维系统容易的多。 3 类型 根据研究对象的不同,把因子分析分为R 型和Q 型两种。 当研究对象是变量时,属于R 型因子分析; 当研究对象是样品时,属于Q 型因子分析。 但有的因子分析方法兼有R 型和Q 型因子分析的一些特点,如因子分析中的对应分析方法,有的学者称之为双重型因子分析,以示与其他两类的区别。 4分析原理 假定:有n 个地理样本,每个样本共有p 个变量,构成一个n ×p 阶的地理数据矩阵 : ?????? ????? ???=np n n p p x x x x x x x x x X ΛM M M M ΛΛ212222111211

bHLH转录因子家族研究进展

HEREDITAS (Beijing) 2008年7月, 30(7): 821―830 ISSN 0253-9772 https://www.docsj.com/doc/95241156.html, 综 述 收稿日期: 2007?12?04; 修回日期: 2008?02?15 基金项目:国家自然科学基金项目(编号: 30370773)资助[Supported by the National Natural Science Foundation of China (No. 30370773)] 作者简介:王勇(1965?), 男, 浙江人, 副研究员, 博士研究生, 研究方向: 昆虫生物信息学。E-mail: ywang@https://www.docsj.com/doc/95241156.html, 姚勤(1961?), 女, 安徽人, 研究员, 研究方向: 昆虫病毒分子生物学。E-mail: yaoqin@https://www.docsj.com/doc/95241156.html, 王勇、姚勤同为第一作者。 通讯作者:陈克平(1962?), 男, 安徽人, 博士, 研究员, 博士生导师, 研究方向: 昆虫分子生物学、昆虫生物信息学。E-mail: kpchen@https://www.docsj.com/doc/95241156.html, DOI: 10.3724/SP.J.1005.2008.00821 bHLH 转录因子家族研究进展 王勇1, 陈克平2, 姚勤2 1 江苏大学食品与生物工程学院, 镇江 212013; 2 江苏大学生命科学研究院, 镇江 212013 摘要: bHLH 转录因子在真核生物生长发育调控中具有重要作用, 它们组成了转录因子的一个大家族。已经有20种生物基因组中bHLH 家族的成员得到鉴定, 其中动物17种、植物2种、酵母1种。动物bHLH 因其调控基因表达的功能不同而被分成45个家族; 此外, 根据它们所作用DNA 元件和自身结构特点又被分成6个组。A 组包含22个家族, 主要调控神经细胞生成、肌细胞生成和中胚层形成; B 组包含12个家族, 主要调控细胞增殖与分化、固醇代谢与脂肪细胞形成以及葡萄糖响应基因的表达; C 组包含7个家族, 主要负责调控中线与气管发育和昼夜节律、激活环境毒素响应基因的转录; D 组只有1个家族, 它与A 组bHLH 蛋白形成无活性的异源二聚体; E 组有2个家族, 调控胚胎分节、体节形成与器官发生等; F 组也只有1个家族, 调控头部发育、嗅觉神经元生成等。文章综述了bHLH 转录因子家族分类、起源、功能方面的研究进展情况。 关键词: bHLH; 转录因子; 家族 Progress of studies on bHLH transcription factor families WANG Yong 1, CHEN Ke-Ping 2, YAO Qin 2 1 School of Food and Biological Engineering , Jiangsu University , Zhenjiang 212013, China ; 2 Institute of Life Sciences , Jiangsu University , Zhenjiang 212013, China Abstract: bHLH transcription factors are important players in various developmental processes of eukaryotes. They consti-tute a large family of transcription factors. bHLH family members have been identified in genomes of 20 organisms inclu- ding 17 animals, two plants, and one yeast. Animal bHLHs are classified into 45 families based on their different functions in the regulation of gene expression. In addition, they are divided into 6 groups according to target DNA elements they bind and their own structural characteristics. Group A consists of 22 families. They mainly regulate neurogenesis, myogenesis and mesoderm formation. Group B consists of 12 families. They mainly regulate cell proliferation and differentiation, sterol metabolism and adipocyte formation, and expression of glucose-responsive genes. Group C has seven families. They are responsible for the regulation of midline and tracheal development, circadian rhythms, and for the activation of gene tran-scription in response to environmental toxins. Group D has only one family. It forms inactive heterodimers with group A bHLH proteins. Group E has two families, which regulate embryonic segmentation, somitogenesis and organogenesis etc. Group F also has one family. It regulates head development and formation of olfactory sensory neurons etc. This article presents a brief review on progress achieved in studies related to the classification, origination and functions of bHLH tran-scription factor families.

因子分析法(自己整理)

因子分析法 1.因子分析法简介: 1)因子分析法的提出 “因子分析”的名称于1931年由Thurstone 首次提出,但它的概念起源于二十世纪初Karl Pearson 和Charles Spearmen 等人关于智力测验的统计分析。近年来,随着电子计算机的高速发展,人们将因子分析方法成功地应用于各个领域,使得因子分析的理论和方法更加丰富。 2)因子分析的定义 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 3)与主成分分析的联系 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变

相关文档