FASTA、FASTQ、SAM和BAM分别有什么区别？

FASTA用于保存整理后的序列，FASTQ用于原始测序数据和质量值，SAM用于记录比对结果，BAM是SAM的压缩二进制格式。

FASTA文件的标题行应该怎么写才规范？

FASTA标题行应以“>”开头，后面简洁写样本名、序列编号或基因名称，避免写过长说明。

FASTQ文件为什么必须保持4行结构？

因为FASTQ每条序列都由标识行、序列行、分隔行和质量值行组成，少一行就可能导致文件无法解析。

基因序列格式如何规范写作？7个关键要点

作者：Dr.Xin

2026-05-13｜原创

引言Introduction

基因序列格式写不规范，最常见的问题不是“看不懂”，而是无法比对、无法复现、无法进入后续分析流程 。对医学生、医生和科研人员来说，基因序列格式直接影响测序数据管理、BLAST检索和下游生信分析。
实验室场景中，研究人员在电脑前查看FASTA/FASTQ序列文件，旁边展示DNA双螺旋与测序数据界面

1. 先分清常见的基因序列格式类型

1.1 FASTA是最基础的序列展示格式

FASTA是文本型序列格式，常用于表示核酸或蛋白质序列。它的核心特点是，第一行以“>”开头，后面跟序列名称或注释，下一行开始写序列本身 。
在基因序列格式中，FASTA常被用于数据库存储、序列提交和BLAST查询。它的优势是直观、通用，适合保存“已经整理好的序列”。

1.2 FASTQ记录原始测序数据和质量值

FASTQ比FASTA更接近测序仪输出。它不仅保存序列，还保存每个碱基对应的质量值。通常一条记录由4行组成。
如果你处理的是原始测序数据，优先认识FASTQ。 因为它决定了后续是否需要质控、过滤和去接头。

1.3 SAM和BAM用于比对结果保存

SAM是文本格式，用于保存reads比对到参考序列后的信息。BAM是SAM的二进制压缩形式，更省空间，检索更快。
在实际分析中，FASTQ用于原始数据，SAM/BAM用于比对结果，FASTA用于参考序列和展示 。这三者的角色不要混淆。

2. 写作时必须保证格式头部规范

2.1 FASTA标题行要简洁明确

FASTA标题行以“>”开头，后面建议写样本名、序列编号或基因名称。不要把长篇说明塞进标题里。
例如，标题最好能让人一眼识别来源，而不是只看到一串无意义编号。标题越规范，后续检索和批量分析越稳定。

2.2 FASTQ四行结构不能省略

FASTQ每条序列都应包含4行信息：

以“@”开头的标识行。
序列正文。
以“+”开头的分隔行。
质量值行。

少一行，整个文件就可能失效。 这是新手最常见的格式错误之一。

2.3 SAM字段顺序要固定

SAM文件由头部和比对结果组成。每条比对记录都依赖固定字段顺序，且字段间用制表符分隔。
如果字段错位，软件可能无法识别，或者直接报错。所以规范写作不只是“写对内容”，还包括“写对位置”。

3. 碱基字符要统一，避免歧义

3.1 DNA序列只写标准碱基和必要的模糊码

DNA序列通常使用A、T、C、G。若存在无法明确判定的碱基，常用N表示。
不要混用大小写、空格、标点或其他非标准字符。 很多软件对格式很敏感，哪怕只是多了一个空格，也可能导致解析失败。

3.2 序列内容应保持连续

在FASTA中，序列可分行书写，但每行内容必须是连续有效的碱基字符。
如果你要提交序列给数据库或用于比对，建议统一行宽，保持格式整洁。这样更便于人工审阅和程序读取。

3.3 不同序列类型不要混写

核酸序列和蛋白序列的字母体系不同。核酸用A/T/C/G，蛋白则使用氨基酸单字母代码。
把蛋白序列误写成核酸格式，或把核酸序列误当蛋白处理，都会直接影响结果解释。

4. 注释信息要准确，但不要过载

4.1 标识信息要能追溯样本来源

无论是FASTA、FASTQ还是SAM，注释信息都应支持追溯。至少要能区分样本、批次、平台或参考序列。
这对临床样本和科研队列都很重要。一旦样本编号混乱，后续统计分析就会失去可信度。

4.2 说明信息要服务于分析，而不是堆砌

注释不是越多越好。过长的标题会增加读取和管理难度。
建议保留关键信息，例如样本ID、基因名、物种名、参考版本。其余内容可放入独立元数据表中。
这样做的好处是，序列文件保持轻量，分析信息保持完整。

5. 质量值和比对信息要按标准保留

5.1 FASTQ的质量行不能随意改写

FASTQ第四行是质量值编码，和第二行碱基逐一对应。它反映测序置信度。
如果质量值丢失或被错误转换，质控结果会失真。 这会直接影响低质量读段过滤、变异检测和表达定量。

5.2 SAM/BAM中的比对信息要保留完整

SAM文件记录read如何比对到参考序列。BAM则在保留信息的同时提升存储和检索效率。
对需要进行可视化、变异检出或覆盖度分析的项目，SAM/BAM是基础文件。规范保存比对信息，才能保证下游分析可复核。

6. 文件命名和编码方式要统一

6.1 文件名要遵循统一规则

基因序列格式不仅是文件内部内容，文件名也属于管理规范的一部分。
建议统一包含：样本名、测序类型、日期或版本号。这样可以减少混样和误用。
例如，同一项目中不要同时出现“sample1_final”“sample1_new”“最终版1”这种命名。命名混乱是数据管理中最隐蔽的风险。

6.2 保持编码和分隔符一致

不同操作系统和软件对换行、编码、制表符的容忍度不同。
在提交或共享文件前，最好统一格式，确保能被常见生信工具读取。尤其是SAM这类依赖制表符分隔的文件，空格替代tab会造成严重解析问题。

7. 提交、共享和分析前要做一次格式检查

7.1 先做基础校验，再进入下游分析

基因序列格式写好后，不要直接进入分析。
至少检查以下几点：

标题行是否正确。
序列字符是否规范。
FASTQ是否四行完整。
SAM字段是否对齐。
文件名是否统一。

这一步虽然简单，但能避免大量重复劳动。

7.2 对于复杂项目，优先让标准流程接管

高通量检测和下游数据分析往往需要依赖特定工具链。实际工作中，很多原始数据会由平台生成，后续再进入标准化处理流程。
如果你面对的是批量样本、转录组、重测序或小RNA数据，建议从一开始就按照规范格式设计文件流。这样更利于公司交付、团队协作和结果复现。

总结Conclusion

基因序列格式看似只是文件写法，实际上关系到数据能否被正确读取、分析和复现。FASTA、FASTQ、SAM和BAM各有用途，不能混用。 标题行、碱基字符、质量值、比对字段和文件命名，都是规范写作的关键点。
如果你希望在课题设计、测序交付、数据质控和生信分析中少踩坑，建议把格式规范前置到实验和项目管理阶段。对于需要高通量检测、序列整理和下游分析支持的研究团队，可以借助解螺旋品牌的专业服务与产品流程，提升文件规范性和分析效率，让基因序列格式真正服务于科研结果。
整洁的生信工作台，屏幕上显示FASTA、FASTQ、SAM/BAM文件结构示意图，旁边有规范命名的文件夹列表