Consensus Clustering(一致性聚类)-学习笔记
- 培训职业
- 2025-05-06 14:01:10
Consensus Clustering,一种无监督聚类方法,主要应用于癌症亚型分类研究,比如乳腺癌中的PAM50。其核心在于根据不同组学数据集将样本分为几个亚型,从而揭示新的疾病亚型或进行不同亚型的比较分析。
该方法采用重抽样技术,从原始数据中抽取一定数量的样本集,确定聚类数目k,并计算不同聚类数下的合理性。其目标在于发现新的疾病亚型或进行比较分析。
在Consensus Clustering中,选择k值通常考虑CDF下降坡度小的原则,但这一原则并非绝对。可以依据研究目的选择其他最优的k值,或灵活调整。
Consensus Clustering实现相对简便,使用R包ConsensusClusterPlus即可完成。仅需一个表达矩阵,如rawdata.txt,该工具将输出k从2到10的各情况下分型情况,采用PAM方法进行聚类。抽样比例通常设定为0.8,最后输出结果为png图和csv文件。
确定亚型后,可以进一步分析。例如,绘制不同亚型的表达模型热图,分析特定分类下不同亚型的表达差异,进行基因表达的显著性差异检验,结合PCA或共表达网络等技术进行深入研究。参考资料包括ConsensusClusterPlus教程和关于一致性聚类识别肿瘤亚型分析的文献。
多重随机标签