如何理解CADD数据库
本篇文章为大家展示了如何理解CADD数据库,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
创新互联长期为数千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为向阳企业提供专业的成都网站建设、网站制作,向阳网站改版等技术服务。拥有十余年丰富建站经验和众多成功案例,为您定制开发。
衡量一个变异位点的影响时,通常都是给定一个变异类型,比如synonymous SNV 等,来表明其影响。CADD独创了一种打分算法,来衡量变异位点的有害程度。
对于一组变异位点,CADD 结合等位基因的多态性,变异的致病性等多个因素,构建了一套模型,对每个变异位点进行评估,并给出一个具体的得分,简称C-Scores
。 统计模型直接给出的打分叫做RawScore
, 这个值越高,代表该变异位点是一个有害突变的概率越高。
对于不同组的变异位点,比如对于1000G和ESP两批变异位点而言,由于各因素的差异,其模型是不同的,RawScore
在不同模型间是无法直接比较的。所以提出了scaled C-scores
的概念。对RawScores
进行从大到小排序,采用-10*log10(rank/total)
的公式计算出scaled C-scores
。由于这个公式和phread的定义方式类似,所以scaled C-scores
也叫做PHREAD
。
在分析潜在的致病变异位点时,通常会对PHREAD
进行过滤。官方推荐阈值为10,15,20都可以,但是更加推荐结合C-Scores
和其他实验证据来对变异位点的致病性进行评估,而不是单纯的进行一个数值过滤。
CADD官网提供了以下3种服务
1. 下载服务
链接如下:
http://cadd.gs.washington.edu/download
对应不同的数据集,比如1000G
, ESP
, Exac
等都给出了对应的 CADD score
下载的文件内容如下:
#Chrom Pos Ref Alt RawScore PHRED 1 861349 C T 6.591020 31 1 865545 G A 5.989520 27.8 1 865584 G A 3.632951 23.2 1 865625 G A 5.624605 26.6 1 865628 G A 2.938829 22.0 1 865662 G A 1.597527 13.84
2. 在线注释服务
通过在线服务,可以对变异位点进行CADD打分。链接如下:
http://cadd.gs.washington.edu/score
上传VCF
格式的文件,一次最多允许10000个变异位点,然后点击Upload variants
就可以开始分析。结果如下
## CADD v1.3 (c) University of Washington and Hudson-Alpha Institute for Biotechnology 2013-2015. All rights reserved. #CHROM POS REF ALT RawScore PHRED 16 50745926 C T 4.355927 24.1 20 1110696 A G 0.142763 4.068 20 1110696 A T 0.005222 2.636 20 1234567 TTCT T -0.369022 0.459 20 1234569 C AC -0.290183 0.699
3. 在线检索
链接如下:
http://cadd.gs.washington.edu/snv
在如下所示的页面中输入SNV位点的位置,然后点击Lookup variant
按钮进行提交
返回结果如下
上述内容就是如何理解CADD数据库,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注创新互联行业资讯频道。
当前标题:如何理解CADD数据库
文章转载:http://myzitong.com/article/ggipcc.html