北京基因组所(国家生物信息中心)相助揭晓多表型全基因组集身剖析新要领
全基因组关联研究(Genome-wide association study, GWAS)是研究人类重大表型遗传因素的有用要领?蒲Ъ颐且延τGWAS发明了大宗的遗传易感位点,剖析了人类重大表型的多基因性本征,完善了精准医学的焦点理论,构建了数千种疾病的遗传危害评估模子,并为多项临床转化类研究提供了明确的分子靶标。然而,由于无法同时剖析多个表型,标准的GWAS流程不可高效检出具有多效性的遗传变异。随着人类重大表型研究体量的与日俱增,怎样高效集身剖析大宗表型亟待解决。
相较于使用个体数据的多表型集身剖析要领,基于GWAS汇总数据的要领在多行列相助研究中不受个体数据分享限制,同时受行列特异性影响也更小,因此应用规模更广,但也面临统计学和盘算机科学领域的多项挑战。例如需要推导对多表型效应高度敏感的统计量,思量由遗传和非遗传因素导致的表型间重大关联关系,校正由多重迭代和样本重叠等因素导致的统计量膨胀,同时在剖析大宗GWAS的情形下,还要对算法的重漂后、并行化计划和内存占用举行优化。
2022年12月20日,北京基因组所(国家生物信息中心)原刘凡研究组与荷兰伊拉斯谟大学Manfred Kayser团队相助在Nature Communications上揭晓了题为“Combining Genome-wide Association Studies Highlights Novel Loci Involved in Human Facial Variation”的文章,该研究研发了用于集身剖析多GWAS的高效算法C-GWAS(Combine GWAS),提供了高度并行优化的开源R软件包,同时通过大规模盘算机模拟,展示了C-GWAS对遗传多效性的高检出率和在差别遗传结构下的高稳固性,进而应用C-GWAS剖析了78小我私家类面部形态表型,新发明并验证了一批影响面部形态的遗传变异和功效性基因,加深了对人类多维重大表型遗传结构的明确。
在要领设计层面,作者对多维GWAS统计量组成的相关性矩阵举行了剖析,来区分由可诠释遗传因素导致的 “效应相关性” 和由不可诠释与非遗传因素导致的 “配景相关性”,进而依据效应和配景相关性相对强度优选合适的统计量举行集身剖析,同时引入自顺应迭代算法以甄别部分遗传变异仅对特定表型子集有用应的情形,从而实现对遗传多效性检出率的最大化。为了战胜由于多重迭代优选引起的统计量膨胀,作者通过盘算机模拟获得统计量在零假设下的真实漫衍,并使用其与均一漫衍的对应关系,对最终视察到的统计量举行校正,确保了C-GWAS效果和标准GWAS效果可直接在相同显著阈值下举行较量。通过大规模数据模拟发明,与多种其它要领相比,C-GWAS在差别重大场景下的统计功效和稳固性均展示出显着提升。
人类面部形态代表了一组多维、可遗传且相互关联的重大表型。作者应用C-GWAS集身剖析了78个面部形态的GWAS,效果显示C-GWAS的检出率是古板要领的3倍,并发明了17个影响脸型的新遗传位点。通过进一步的验证剖析和功效基因组学剖析,作者展示了C-GWAS的效果比古板要领的效果具有更高的遗传多效性,显著提升了脸型可被遗传因素诠释的比例,且所指向的靶基因具有更明确的生物发育学功效,批注晰C-GWAS在剖析多维重大表型遗传结构中的优势。
在新发明的17个影响面部形态的遗传位点中,有13个位点位于颅神经嵴细胞(Cranial neural crest cells, CNCC)中活性调控元件周围,或在垂体等多个组织中体现出与基因表达eQTL信号的高度共定位。其中,与面部宽度和长度相关的CDK2AP1内含子中的多态性rs10773002,其周围的调控元件在CNCC中调控CDK2AP1的表达,且该位点在多组织中与CDK2AP1的eQTL高度共定位,CDK2AP1编码的卵白在细胞周期、胚胎干细胞分解和表观遗传调控中施展作用。这些证据提醒该位点通过调控CDK2AP1的表抵达场到面部形态形成的历程中。
综上,C-GWAS是一种不依赖个体数据对多表型GWAS汇总数据集身剖析的高效算法,对遗传多效性有较高的检出率并在重大场景下有很强的稳固性。作者提供了高度并行优化的开源R包,可在数小时内集身剖析数百个GWAS汇总数据。C-GWAS在人类面部形态数据上的应用乐成发明了一批新位点和功效基因,加深了对人类面部形态的遗传结构的明确。未来C-GWAS将被用于剖析更高维重大表型的遗传结构,为多表型间共享遗传因素网络的描绘提供手艺支持。