文件格式 - GFF/GTF

 2024-01-26 02:04:19  阅读 0

一个物种的基因组测序完成后,需要对数据进行解释。 首先,必须找到这些序列中的转录起始位点,以及染色体中基因、外显子、内含子等成分的位置信息(这第一个过程是基因注释),然后才能进行深入分析。 GFF/GTF 是用于存储这些注释信息的两种文件格式。 单击以了解有关 GFF 和 GTF 格式的更多信息。

GFF ( ) 是用于描述基因组特征的文件。 除 GFF1 外的 GFF 文件均由 9 列数据组成。 GFF的三个版本中前8列信息是相同的,但名称不同。 第9栏 内容具有很大的版本特异性。 我们现在使用的大部分内容是第三版本(GFF3)。 以下描述基于GFF3。 。

GTF(Gene)主要用来注释基因,比如基因在染色体上的位置()等这个区间的信息。 目前广泛使用的 GTF 格式是版本 2(GTF2)。 以下均基于GTF2描述。

两者的关系如下:

GTF(基因)对应于 GFF ( ) 2。

GTF 与 GFF3 非常相似。 它还具有 9 列内容。 两者的前八列内容相同,但最后一列的信息不一致。

GTF2 文件的类型必须指定,而 GFF3 文件的名称可以是任意名称。

GTF2文件的键和值用空格分隔,而GFF3文件的键和值用等号分隔。

使用里面的工具可以实现GFF3和GTF2之间的转换(后面会有专栏)。

1.GFF文件格式:

GFF3 允许使用# 作为注释符号。 除去评论,主体部分共有9栏。

GFF3中各列的含义:

GFF 文件示例(注释来源未知,替换为 .)

seqid - 或 的名称; 名称可以用 或 'chr' 给出。 注意:seq ID 必须是一个使用过的 ,即名称或诸如 ID 之类的任何名称,例如 或 。 请参阅下面的 GFF。 (id,通常是字符或数字)

- this 的名称,或数据(或名称)(注释的来源,如果未知,请使用 . 代替)

类型 - 的类型。 必须是术语或来自 SOFA(注释信息类型,例如 Gene、cDNA、mRNA、CDS 等)

start - 的开始,从 1 开始。

end - 的结尾,位于 1。

分数 - 分值。 (序列相似性比对中的E值或基因预测中的P值,“.”表示空)

- 作为 + () 或 - ()。(有义链和反义链)

阶段 - “0”、“1”或“2”之一。 “0”表示该碱基是密码子的第一个碱基,“1”表示该碱基是密码子的第一个碱基,依此类推。 (该值在CDS类型中指出,该值为CDS的起始位置,除以3得到的余数)

- 标签值对列表,关于每个 . 其中一些标签是,例如 ID、名称、别名 - 请参阅 GFF 了解更多信息。 (由多个键值对组成的注释信息的描述,键与值之间使用“=”,空格之间使用“;)针对不同的键值。

2.GTF文件格式:

GTF2 文件也由 9 列组成。

GTF2中各列的含义:

格式的文件可以用什么软件打开_格式文件是什么意思_key是什么文件格式

GTF 文件示例

- 序列的名称。 通常的格式是染色体ID或ID。

-注释的来源。 通常是预测软件名称或公共数据库。

start - 起始位置,从 1 开始计数。

end - 结束位置。

- 遗传结构。 CDS,是必须包含的类型。

分数——该列的值表示该类型及其坐标存在的可信度。 不是必须的,可以用点“.”代替。

- 链条的正向和负向分别用加号+和减号-表示。

帧 - 密码子偏移量,可以是 0、1 或 2。

- 必须具有以下两个值:

价值; 代表基因组上转录本基因座的唯一 ID。 用空格分隔值。 如果该值为空,则表示没有对应的基因。

价值; 预测转录本的唯一 ID。 用空格分隔值。 空表示没有文字记录。

标签: 基因 注释 格式

如本站内容信息有侵犯到您的权益请联系我们删除,谢谢!!


Copyright © 2020 All Rights Reserved 京ICP5741267-1号 统计代码