启动子数据格式为什么要标注参考基因组版本？

因为不同参考基因组版本的坐标可能不同，不标注版本会导致启动子位置偏移，影响序列提取和后续分析。

启动子FASTA格式标题行应该写哪些信息？

至少应包含基因符号、物种、参考基因组、坐标区间和链方向，方便复现与后续预测分析。

启动子区和核心启动子区有什么区别？

广义启动子区通常指TSS上游3000 bp到下游100 bp，核心启动子区则多在TSS上游约25 bp到下游50 bp。

启动子数据格式怎么写才最规范？

作者：Dr.Sheng

2026-05-18｜原创

引言Introduction

启动子预测、启动子克隆和后续功能验证，最容易出错的不是算法，而是启动子数据格式 。同一段序列，方向写错、坐标写错、FASTA 头信息不完整，都会直接影响预测结果和实验设计。下面结合常用数据库流程，讲清楚如何规范书写。
一张启动子序列查询与FASTA格式示意图，包含基因坐标、TSS、上游下游区间和序列文本框。

1. 启动子数据格式的核心原则

1.1 先明确你要写的是什么

启动子数据格式不是单纯的DNA序列。它至少要回答三个问题。

这段序列来自哪个基因。
它对应哪个参考基因组版本。
它相对于TSS的起止位置是什么。

规范的启动子数据格式，必须能让别人直接复现你的序列来源。 这也是E-E-A-T里最关键的可验证性。

以人类PTEN为例，若已确认基因位于 Chr10: 87863625-87971930 ，且为正向转录，那么启动子区通常从转录起始位点上游取一定长度，再延伸到下游少量碱基。知识库中示例使用的是 上游3000 bp、下游100 bp ，即 87860625-87863725 。
这类信息写清楚，后续无论是数据库检索、序列提取，还是引物设计，都能对上。

1.2 坐标比序列更重要

很多人只贴一串序列，却不标注坐标。这样不规范。

标准写法应同时保留：基因名、染色体、链方向、参考版本、起止坐标、提取长度。

建议最少包含以下字段：

Gene symbol
Species
Genome build
Chromosome location
Strand
TSS position
Promoter region coordinates
Sequence length

如果是正链，常用写法是：

上游区间：TSS - 3000
下游区间：TSS + 100

如果是反义链，则要改成：

终点 + 3000
终点 - 100

方向写错，比少写一个碱基更致命。

2. 启动子数据格式怎么写最规范

2.1 推荐的FASTA写法

启动子数据格式最常见的是FASTA。标准结构很简单：第一行是标题行，第二行开始是序列。

建议标题行至少包含这些信息：

基因符号
物种
参考基因组
区间坐标
链方向

例如：

>PTEN_Homo_sapiens_GRCh38_chr10_87860625-87863725_plus
NNNNNNNNNN

如果需要更专业，可以进一步写成：

>PTEN|Homo sapiens|GRCh38|chr10:87860625-87863725|plus|promoter_region

标题行越规范，后面做启动子预测、Motif分析和实验记录越省事。

2.2 序列行的规范要求

序列本身也有格式要求。

只写A、T、C、G。
不要混入空格、数字、中文标点。
不要把5’到3’方向写反。
长序列建议按固定长度换行，常用60或80个字符一行。
不要把未知碱基随意改写。

知识库中提到，像GenBank、Gene、UCSC、EPD这类数据库，都可以导出或截取启动子区序列。一旦来源明确，序列格式就必须统一。

2.3 方向标注必须一致

这是最常见的错误点。

正链基因：

以基因起始位点为基准。
向左取上游。
向右取少量下游。

反链基因：

以基因终止位点为基准。
方向相反。
仍要按转录方向定义上游和下游。

也就是说，“上游”是转录方向概念，不是简单的左边或右边。
写启动子数据格式时，不能只看染色体坐标大小，还要看链方向。

3. 启动子数据格式中最容易漏掉的字段

3.1 必须写清参考基因组版本

不同版本的参考基因组，坐标可能不同。

例如：

GRCh38
hg38
current reference status

没有参考版本，坐标信息就不够完整。
做数据库查询时，版本不一致会导致区域偏移，尤其在精确定位TSS时非常麻烦。

建议在记录中统一写：

Genome build: GRCh38
Database source: NCBI Gene / UCSC / EPD

3.2 必须写清TSS与启动子边界

启动子并不等于整个上游区域。很多实验只需要核心启动子或某个候选片段。

可分两层写法：

广义启动子区 ：TSS上游3000 bp到下游100 bp
核心启动子区 ：TSS附近约-25 bp到+50 bp

知识库明确指出，核心启动子通常位于 TSS上游约25 bp 到下游50 bp 。
而上游的GC盒、CAAT盒等调控元件，往往分布在更靠上的区域。

所以，规范的数据格式应把这两层分开：

promoter region
core promoter region

3.3 必须记录数据来源

没有来源的数据格式，不适合直接进入课题组记录或文章补充材料。

推荐写法：

NCBI Gene database
UCSC Genome Browser
EPDnew database

如果是预测得到的结果，也要注明工具：

Promoter 2.0
Softberry FPROM

例如，Promoter 2.0 的结果解读中，score 和 likelihood 能提示转录起始位点在预测区域内的可能性。Softberry FPROM 则会输出是否存在含TATA盒或不含TATA盒的核心启动子。

4. 启动子预测前，数据格式为什么要先标准化

4.1 数据格式决定预测质量

启动子预测前，最关键的是先拿到正确的候选序列。
知识库给出的流程很清楚：

在NCBI Gene或UCSC中查询基因。
确认基因位置和链方向。
根据邻近上游基因间距，确定候选启动子范围。
提取FASTA序列。
再做预测。

如果这一步格式不标准，后面的预测就没有意义。

例如PTEN案例中，上游邻基因CFL1P1与PTEN起点相差 18013 bp 。因为间距较大，所以可以更宽一些地提取启动子区域。这个判断过程本身就依赖坐标表达是否规范。
坐标规范，是整个分析链条的起点。

4.2 Motif分析也依赖格式

启动子数据格式正确后，才能进一步找：

TATA盒
Initiator
GC盒
CAAT盒

知识库中提到，EPD中可以直接选择 Promoter Motifs，分别预测这些元件。
但前提是，你的输入序列边界已经定义清楚。

如果边界不清：

TATA盒可能被截掉。
下游TSS附近序列可能缺失。
预测结果会偏离真实调控区。

4.3 实验设计更需要可追溯格式

后续做启动子报告基因载体构建时，通常要从基因组DNA中扩增启动子片段。
这时启动子数据格式不规范，会直接影响：

引物位置
扩增片段长度
克隆方向
报告载体插入是否正确

从数据库到实验台，格式一致性决定可重复性。

5. 一套可直接套用的标准模板

5.1 文本记录模板

建议你在实验记录或表格中按下面格式整理：

Gene: PTEN
Species: Homo sapiens
Genome build: GRCh38
Chromosome: chr10
Strand: plus
TSS: 87863625
Promoter region: 87860625-87863725
Length: 3101 bp
Source: NCBI Gene / UCSC
File format: FASTA

这个模板的价值在于，后续任何人都能快速复查。

5.2 FASTA模板

>PTEN|Homo sapiens|GRCh38|chr10:87860625-87863725|plus|TSS=87863625
ATG...

如果是用于提交数据库或软件分析，建议再补充：

transcript ID
promoter type
extraction rule

例如：

upstream 3000 bp, downstream 100 bp
core promoter search window

5.3 表格模板

如果你要整理多个基因，表格比纯文本更高效。

Gene	Species	Build	Chr	Strand	TSS	Region	Length	Source
PTEN	Homo sapiens	GRCh38	chr10	+	87863625	87860625-87863725	3101	NCBI Gene

表格化管理，是最适合科研团队协作的启动子数据格式。

总结Conclusion

启动子数据格式的规范写法，核心不是“写得像不像”，而是能不能被复现、能不能被验证、能不能直接用于预测和实验 。最少要写清基因名、物种、参考版本、链方向、TSS、坐标区间和序列来源。FASTA标题行也要同步标准化。这样，后续无论是NCBI、UCSC、EPD查询，还是Promoter 2.0、Softberry FPROM分析，都能减少错误。

如果你希望把启动子查询、序列提取、预测和实验设计串成一套更高效的流程，可以借助解螺旋 的科研内容与工具支持，统一管理启动子数据格式，减少重复整理时间，提高课题推进效率。
一张科研工作流图，展示基因查询、启动子序列提取、FASTA整理、预测分析和实验验证的完整流程。