Posts 组学之与查找给定物种所有已标注基因的TSS
Post
Cancel

组学之与查找给定物种所有已标注基因的TSS

基于参考基因组查找给定物种所有已标注基因的TSS

这里参考生信菜鸟团的方法。

1. 首先在UCSC的 table browser 设置并下载text文件:

UCSC Table Browser for finding TSS

输出如下

1
2
3
4
5
6
7
8
9
#name	chrom	strand	txStart	txEnd	cdsStart	cdsEnd	exonCount	exonStarts	exonEnds	proteinID	alignID
ENST00000456328.2	chr1	+	11868	14409	11868	11868	3	11868,12612,13220,	12227,12721,14409,		uc286dmu.1
ENST00000450305.2	chr1	+	12009	13670	12009	12009	6	12009,12178,12612,12974,13220,13452,	12057,12227,12697,13052,13374,13670,		uc286dmv.1
ENST00000488147.1	chr1	-	14403	29570	14403	14403	11	14403,15004,15795,16606,16857,17232,17605,17914,18267,24737,29533,	14501,15038,15947,16765,17055,17368,17742,18061,18366,24891,29570,		uc286dmw.1
ENST00000619216.1	chr1	-	17368	17436	17368	17368	1	17368,	17436,		uc031tla.1
ENST00000473358.1	chr1	+	29553	31097	29553	29553	3	29553,30563,30975,	30039,30667,31097,		uc057aty.1
ENST00000469289.1	chr1	+	30266	31109	30266	30266	2	30266,30975,	30667,31109,		uc057atz.1
ENST00000607096.1	chr1	+	30365	30503	30365	30365	1	30365,	30503,		uc031tlb.1

注意

  • 部分基因有多个TSS
  • 以上输出的txStart就是TSS的位置

这样就得到了参考基因组的TSS位点。

2. 设定TSS区域并生成bed文件

得到TSS后,一般设定上下游1kb来作为TSS区域(即 txStart $\pm$ 1000bp,当然这个视具体情况设定),然后转化为TSS区域的bed文件。

参考文献:

This post is licensed under CC BY 4.0