引言Introduction

启动子预测、启动子克隆和后续功能验证,最容易出错的不是算法,而是启动子数据格式 。同一段序列,方向写错、坐标写错、FASTA 头信息不完整,都会直接影响预测结果和实验设计。下面结合常用数据库流程,讲清楚如何规范书写。
一张启动子序列查询与FASTA格式示意图,包含基因坐标、TSS、上游下游区间和序列文本框。

1. 启动子数据格式的核心原则

1.1 先明确你要写的是什么

启动子数据格式不是单纯的DNA序列。它至少要回答三个问题。

  1. 这段序列来自哪个基因。
  2. 它对应哪个参考基因组版本。
  3. 它相对于TSS的起止位置是什么。

规范的启动子数据格式,必须能让别人直接复现你的序列来源。 这也是E-E-A-T里最关键的可验证性。

以人类PTEN为例,若已确认基因位于 Chr10: 87863625-87971930 ,且为正向转录,那么启动子区通常从转录起始位点上游取一定长度,再延伸到下游少量碱基。知识库中示例使用的是 上游3000 bp、下游100 bp ,即 87860625-87863725
这类信息写清楚,后续无论是数据库检索、序列提取,还是引物设计,都能对上。

1.2 坐标比序列更重要

很多人只贴一串序列,却不标注坐标。这样不规范。

标准写法应同时保留:基因名、染色体、链方向、参考版本、起止坐标、提取长度。

建议最少包含以下字段:

  • Gene symbol
  • Species
  • Genome build
  • Chromosome location
  • Strand
  • TSS position
  • Promoter region coordinates
  • Sequence length

如果是正链,常用写法是:

  • 上游区间:TSS - 3000
  • 下游区间:TSS + 100

如果是反义链,则要改成:

  • 终点 + 3000
  • 终点 - 100

方向写错,比少写一个碱基更致命。

2. 启动子数据格式怎么写最规范

2.1 推荐的FASTA写法

启动子数据格式最常见的是FASTA。标准结构很简单:第一行是标题行,第二行开始是序列。

建议标题行至少包含这些信息:

  • 基因符号
  • 物种
  • 参考基因组
  • 区间坐标
  • 链方向

例如:

>PTEN_Homo_sapiens_GRCh38_chr10_87860625-87863725_plus
NNNNNNNNNN

如果需要更专业,可以进一步写成:

>PTEN|Homo sapiens|GRCh38|chr10:87860625-87863725|plus|promoter_region

标题行越规范,后面做启动子预测、Motif分析和实验记录越省事。

2.2 序列行的规范要求

序列本身也有格式要求。

  • 只写A、T、C、G。
  • 不要混入空格、数字、中文标点。
  • 不要把5’到3’方向写反。
  • 长序列建议按固定长度换行,常用60或80个字符一行。
  • 不要把未知碱基随意改写。

知识库中提到,像GenBank、Gene、UCSC、EPD这类数据库,都可以导出或截取启动子区序列。一旦来源明确,序列格式就必须统一。

2.3 方向标注必须一致

这是最常见的错误点。

正链基因:

  • 以基因起始位点为基准。
  • 向左取上游。
  • 向右取少量下游。

反链基因:

  • 以基因终止位点为基准。
  • 方向相反。
  • 仍要按转录方向定义上游和下游。

也就是说,“上游”是转录方向概念,不是简单的左边或右边。
写启动子数据格式时,不能只看染色体坐标大小,还要看链方向。

3. 启动子数据格式中最容易漏掉的字段

3.1 必须写清参考基因组版本

不同版本的参考基因组,坐标可能不同。

例如:

  • GRCh38
  • hg38
  • current reference status

没有参考版本,坐标信息就不够完整。
做数据库查询时,版本不一致会导致区域偏移,尤其在精确定位TSS时非常麻烦。

建议在记录中统一写:

  • Genome build: GRCh38
  • Database source: NCBI Gene / UCSC / EPD

3.2 必须写清TSS与启动子边界

启动子并不等于整个上游区域。很多实验只需要核心启动子或某个候选片段。

可分两层写法:

  • 广义启动子区 :TSS上游3000 bp到下游100 bp
  • 核心启动子区 :TSS附近约-25 bp到+50 bp

知识库明确指出,核心启动子通常位于 TSS上游约25 bp 到下游50 bp
而上游的GC盒、CAAT盒等调控元件,往往分布在更靠上的区域。

所以,规范的数据格式应把这两层分开:

  • promoter region
  • core promoter region

3.3 必须记录数据来源

没有来源的数据格式,不适合直接进入课题组记录或文章补充材料。

推荐写法:

  • NCBI Gene database
  • UCSC Genome Browser
  • EPDnew database

如果是预测得到的结果,也要注明工具:

  • Promoter 2.0
  • Softberry FPROM

例如,Promoter 2.0 的结果解读中,score 和 likelihood 能提示转录起始位点在预测区域内的可能性。Softberry FPROM 则会输出是否存在含TATA盒或不含TATA盒的核心启动子。

4. 启动子预测前,数据格式为什么要先标准化

4.1 数据格式决定预测质量

启动子预测前,最关键的是先拿到正确的候选序列。
知识库给出的流程很清楚:

  1. 在NCBI Gene或UCSC中查询基因。
  2. 确认基因位置和链方向。
  3. 根据邻近上游基因间距,确定候选启动子范围。
  4. 提取FASTA序列。
  5. 再做预测。

如果这一步格式不标准,后面的预测就没有意义。

例如PTEN案例中,上游邻基因CFL1P1与PTEN起点相差 18013 bp 。因为间距较大,所以可以更宽一些地提取启动子区域。这个判断过程本身就依赖坐标表达是否规范。
坐标规范,是整个分析链条的起点。

4.2 Motif分析也依赖格式

启动子数据格式正确后,才能进一步找:

  • TATA盒
  • Initiator
  • GC盒
  • CAAT盒

知识库中提到,EPD中可以直接选择 Promoter Motifs,分别预测这些元件。
但前提是,你的输入序列边界已经定义清楚。

如果边界不清:

  • TATA盒可能被截掉。
  • 下游TSS附近序列可能缺失。
  • 预测结果会偏离真实调控区。

4.3 实验设计更需要可追溯格式

后续做启动子报告基因载体构建时,通常要从基因组DNA中扩增启动子片段。
这时启动子数据格式不规范,会直接影响:

  • 引物位置
  • 扩增片段长度
  • 克隆方向
  • 报告载体插入是否正确

从数据库到实验台,格式一致性决定可重复性。

5. 一套可直接套用的标准模板

5.1 文本记录模板

建议你在实验记录或表格中按下面格式整理:

  • Gene: PTEN
  • Species: Homo sapiens
  • Genome build: GRCh38
  • Chromosome: chr10
  • Strand: plus
  • TSS: 87863625
  • Promoter region: 87860625-87863725
  • Length: 3101 bp
  • Source: NCBI Gene / UCSC
  • File format: FASTA

这个模板的价值在于,后续任何人都能快速复查。

5.2 FASTA模板

>PTEN|Homo sapiens|GRCh38|chr10:87860625-87863725|plus|TSS=87863625
ATG...

如果是用于提交数据库或软件分析,建议再补充:

  • transcript ID
  • promoter type
  • extraction rule

例如:

  • upstream 3000 bp, downstream 100 bp
  • core promoter search window

5.3 表格模板

如果你要整理多个基因,表格比纯文本更高效。

Gene Species Build Chr Strand TSS Region Length Source
PTEN Homo sapiens GRCh38 chr10 + 87863625 87860625-87863725 3101 NCBI Gene

表格化管理,是最适合科研团队协作的启动子数据格式。

总结Conclusion

启动子数据格式的规范写法,核心不是“写得像不像”,而是能不能被复现、能不能被验证、能不能直接用于预测和实验 。最少要写清基因名、物种、参考版本、链方向、TSS、坐标区间和序列来源。FASTA标题行也要同步标准化。这样,后续无论是NCBI、UCSC、EPD查询,还是Promoter 2.0、Softberry FPROM分析,都能减少错误。

如果你希望把启动子查询、序列提取、预测和实验设计串成一套更高效的流程,可以借助解螺旋 的科研内容与工具支持,统一管理启动子数据格式,减少重复整理时间,提高课题推进效率。
一张科研工作流图,展示基因查询、启动子序列提取、FASTA整理、预测分析和实验验证的完整流程。