生态学群落分析之多元分析 (1)排序

引子

什么是排序?为啥要排序?咋排?

群落学数据一般是多维数据,例如群落中物种组成。某一个物种在某一个群落中的多度作为变量,其在不同群落中多度的变化,类似于一个数据轴,即维度。那么,不同的物种整体上构成了多维数据。 排序是一种降维的过程。大概是因为我们习惯了只有x轴和y轴的图。习惯上我们喜欢降成两个或者三个维度。只不过现在降后的维度(或叫数据轴)已经是多个维度的杂合。不像之前单一物种构成的维度,这时候的维度可能是 耐旱或者不耐旱(必然有一批物种)等。当然这只是我为了便于自己理解而硬加上的例子解释。

之所以要进行排序,是因为数据中信息的冗余,即数据中包含的变量要多于描述背后信息量所必要的变量。如果在确保主要信息并未丢失的前提下,通过降低变量(和维度),我们可以更好的描述群落组成。note:如果每个变量之前都是完全相互独立的,排序将很有可能起不到去除冗余的目的。

生态学群落数据的排序有两种大类:第一,寻求物种组成的梯度并研究不同环境因子如何解释这些梯度(即解释物种组成变异)。第二,寻求不同的样本在排序后的分布,并研究不同样本之间的相似程度(基于物种组成)。

img

选择排序前要进行三问: 第一,有没有包含环境变量? 基于群落物种组成数据包含不包含环境因子变量,排序分为分限制排序和限制性排序。大家熟悉的PCA和NMDS 都是非限制排序的范畴。而限制性排序多为RDA分析。限制性排序可以进行一些假说验证,比如物种组成受环境影响程度有多大?哪些环境因子主要影响着物种组成(对于重要环境因子的筛选有以下方法:向前选择法,即无关紧要的因子一个一个剔除;蒙特卡洛法),并且基于此而对不同环境因子解释的变异组分百分比进行量化。

第二:排序是基于物种组成原始数据(raw),转换数据(tb)是还是基于距离指数(db)的数据? 第三:物种组成的响应是符合线性还是单峰响应?如果环境梯度小且较为匀质,可以考虑为线性响应。反之单峰。另,一种更为直观的检验方法为计算DCA(detrended by segments)指数。如果第一DCA 轴 (单位为standard deviation,S.D.的倍数)大于4倍S.D,即选择单峰。小于3倍S.D.,即选择线性。介于中间二者皆可。