基于参考基因组查找给定物种所有已标注基因的TSS 这里参考生信菜鸟团的方法。 1. 首先在UCSC的 table browser 设置并下载text文件: 输出如下 1 2 3 4 5 6 7 8 9 #name chrom strand txStart txEnd cdsStart cdsEnd exonCount exonStarts exonEnds proteinID ali...
组学之相关基本概念
转录起始位点TSS 转录起始位点(Transcription Start Site, TSS)是指一个基因的5’端转录的第一个碱基,它是转录时,mRNA链第一个核苷酸相对应DNA链上的碱基,通常是一个嘌呤(A或G)。通常把转录起始点(即5‘末端)前的序列称为上游(upstream),而把其后(即3’末端)的序列称为下游(downstream)。启动子(promoter)包含转录点位,这两者是...
组学之转录起始位点综述论文之:转录起始位点选择的基因组和染色质信号
参考文献 Valen Eivind, and Albin Sandelin. “Genomic and chromatin signals underlying transcription start-site selection.” Trends in genetics 27.11 (2011): 475-485. 通过对全基因组测序数据分析不仅可以确定TSS的位置,而且可以确定蛋白质与...
组学之游离DNA
cfDNA 无细胞DNA或游离DNA(cfDNA)是在血浆中发现的短的,细胞外的,片段化的双链DNA。已经发现患有实体瘤的患者的血浆显示出明显增加的cfDNA量。尽管目前知之甚少,但推测cfDNA生成的机制是细胞凋亡和坏死(cellular apoptosis and necrosis)过程中基因组DNA片段化的产物。具有肿瘤起源的cfDNA测序已鉴定出肿瘤生物标志物,阐明了分子病理学并有助...
机器学习之基于交叉验证的特征选择
交叉验证通常用于模型选择,那么如何正确使用交叉验证进行特征选择呢? 交叉验证 模型在训练的时候往往是高方差估计. 从bias-variance tradeoff的角度看, 在有限数据的情况下训练的结果往往是bias较小但varance很大从而造成模型过拟合,因此降低了模型的泛化能力。为了在有限数据集的条件下使得模型尽可能满足泛化能力,提出了交叉验证 (Cross Validation,...