RÁPIDO

formato RÁPIDO
Extensión	.fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
tipo MIME	químico/seq-aa-fasta, químico/seq-na-fasta [1]
Desarrollador	David Lipman [2] William Pearson [2]
publicado	1985
Tipo de formato	formato de archivo y formato de datos textuales [d]
Expandido desde	ASCII para FASTA
Desarrollado en	RÁPIDO
Sitio web	http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

FASTA es un formato de texto para secuencias de nucleótidos o polipéptidos , en el que los nucleótidos o aminoácidos se designan mediante códigos de una sola letra . Por su sencillez y practicidad, actualmente es utilizado por la mayoría de los programas de secuenciación biológica . Los archivos de este formato pueden contener nombres de secuencias, sus identificadores en bases de datos y comentarios. Dependiendo de la naturaleza de las secuencias biológicas que contenga, un archivo FASTA puede tener varias extensiones .

Historia y distribución

El formato fue inventado por David Lipman y William Pearson [2] [3] en 1985 para el programa del mismo nombre , diseñado para buscar grandes bases de datos de secuencias homólogas a una dada. La descripción original del formato la hicieron ellos en la documentación de este programa, y ahora su descripción forma parte de la documentación del programa BLAST .

La simplicidad del formato FASTA facilita la realización de varias acciones con secuencias utilizando herramientas de edición de texto y lenguajes de programación de secuencias de comandos como Python [5] , Ruby [6] , Perl [7] , Java [8] .

Los formatos FASTA y FASTQ (Sanger Institute) son los más populares para representar datos de secuencias biológicas [9] . También existen otros formatos, incluidos los utilizados en los bancos de datos GenBank [10] , EMBL [11] y UniProt [12] .

Formato

Las secuencias FASTA comienzan con una descripción de una línea seguida de líneas que contienen la secuencia en sí. La descripción está marcada con un símbolo mayor que (">") en la primera columna. La palabra después de este carácter y hasta el primer espacio es el identificador de secuencia , seguido de una descripción opcional. Las siguientes líneas pueden tener un punto y coma (";") como primer carácter, en cuyo caso serán tratados como comentarios. Actualmente, muchas bases de datos y programas no reconocen los comentarios, por lo que no son muy comunes. Luego siga las líneas que contienen las secuencias biológicas reales. Normalmente, las cadenas en formato FASTA están limitadas a una longitud de 80 a 120 caracteres (por razones históricas), pero los programas modernos reconocen secuencias escritas completamente en una línea. Se pueden escribir varias secuencias en un archivo, por lo que se obtiene un archivo multi-FASTA, sin embargo, cada secuencia debe ir precedida de su propio identificador [13] . Ejemplo de una secuencia en formato FASTA: [14]

>gi|31563518|ref|NP_852610.1| proteínas asociadas a microtúbulos 1A/1B cadena ligera 3A isoforma b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

El identificador de esta secuencia es gi|31563518|ref|NP_852610.1|.

Las secuencias se escriben como códigos de una letra para nucleótidos o aminoácidos , que coinciden con sus códigos estándar de una letra IUB / IUPAC , en orden del extremo 5' al 3' para los ácidos nucleicos y del extremo N al extremo C para los aminoácidos se permiten espacios en ellos, los caracteres pueden ser tanto mayúsculas como minúsculas. Los programas que trabajan con secuencias ignoran los números, los finales de línea y los tabuladores .

Los ácidos nucleicos se designan [15] :

El código	Sentido	Mnemotécnica
A	A	A denina - Adenina
C	C	Citosina - Citosina
GRAMO	GRAMO	Guanina - Guanina
T	T	Timina - Timina (5-metiluracilo )
tu	tu	U racil - uracilo
R	A, G	pu Rine - Purinas
Y	C, T, U	p Y rimidinas — Pirimidinas
k	G, T, U	Bases cetónicas _
METRO	A, C	Bases con grupos amino (a M ino)
S	do, sol	Interacción fuerte ( Fuerte ) en un par complementario (tres enlaces de hidrógeno )
W	A, T, U	Interacción débil (débil ) en un par complementario (dos enlaces de hidrógeno )
B	no A (es decir, C, G, T o U)	B sigue a A
D	no C (es decir, A, G, T o U)	D sigue a C
H	no G (A, C, T o U)	H sigue a G
V	ni T ni U (A, C o G)	V sigue a U
norte	ACGTU	Cualquier (un N y) nucleótido

Hay 22 códigos comunes para aminoácidos (aminoácidos canónicos, selenocisteína y pirrolisina ), 4 códigos especiales (designaciones para conjuntos de aminoácidos) y * para designar un codón de terminación (en traducciones formales de genes ) [16] [17] .

Código de aminoácidos	Sentido
A	alanina
B	Ácido aspártico (D) o asparagina (N)
C	cisteína
D	Ácido aspártico
mi	Ácido glutamico
F	Fenilalanina
GRAMO	Glicina
H	histidina
yo	isoleucina
j	Leucina (L) o Isoleucina (I)
k	Lisina
L	leucina
METRO	metionina
norte	asparagina
O	pirrolisina
PAGS	prolina
q	glutamina
R	Arginina
S	Sereno
T	Treonina
tu	selenocisteína
V	Valina
W	triptófano
Y	tirosina
Z	Ácido glutámico (E) o Glutamina (Q)
X	Cualquier aminoácido
*	Terminación de la traducción

El formato Fasta también se utiliza para archivos que contienen alineaciones de secuencias biológicas . En este caso, en cada secuencia, en los lugares correspondientes a las posiciones no representadas en esta secuencia, se insertan caracteres de "espacios en blanco" (generalmente un guión o un punto), como resultado, todas las secuencias en el archivo deben tener la misma longitud [18 ] .

Identificadores de secuencia

El NCBI ha definido reglas para generar identificadores de secuencia únicos (SeqID). Se permite ingresar las siguientes variantes de identificadores en la línea de descripción [19] :

Tipo de	Formato(s)	ejemplo(s)
Local (no se refiere a bases de datos externas)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
Identificador de secuencia de red troncal GenInfo	bbs\|целое число	bbs\|123
Tipo de molécula de la columna vertebral de GenInfo	bbm\|целое число	bbm\|123
ID de importación de GenInfo	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
PROTECCIÓN SUIZA	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Patentar	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
solicitud de patente	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
El enlace de la base de datos no está en esta lista	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Base de datos GenInfo integrada	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PPR	prf\|код доступа\|название	prf\|\|0806162C
AP	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank con anotaciones de terceros	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL con anotaciones de terceros	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ con anotaciones de terceros	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1

Los guiones verticales ("|") en la parte superior de la lista no son delimitadores, sino parte del formato. Puede poner identificadores en una fila, separándolos con líneas. En caso de que alguno de los campos del identificador se deje en blanco, para garantizar la compatibilidad con los programas, es necesario colocar dos guiones seguidos [20] .

Extensiones de archivo

Los archivos Fasta pueden tener diferentes extensiones dependiendo de la naturaleza de los datos biológicos que contienen [21] [22] .

Extensión	Sentido	notas
rápido	Datos fasta regulares	Cualquier dato rápido. A veces también .fa, .seq, .fsa, .fas
fna	abreviatura de "ácido nucleico fasta"	Describir secuencias de nucleótidos.
ffn	Regiones codificantes de nucleótidos	Contienen regiones codificantes de los genomas .
FAAA	abreviatura de "aminoácidos fasta"	Contiene secuencias de aminoácidos. La extensión mpfa se usa cuando se almacenan múltiples proteínas en un archivo.
frn	ARN no codificante en formato FASTA	Contienen ARN no codificantes en el alfabeto de ADN , por ejemplo , tRNA , rRNA
afa, mfa	Alineación en formato FASTA (a para "alineación", m para "múltiple")	Contienen alineaciones de secuencias biológicas (nucleótidos o aminoácidos)

Notas

↑ FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, referencia, 2007-2012 . Consultado el 19 de junio de 2015. Archivado desde el original el 19 de junio de 2015. (indefinido) (Inglés)
↑ 1 2 3 Lipman D. , Pearson W. Búsquedas rápidas y sensibles de similitud de proteínas // Ciencia . - 1985. - 22 de marzo ( vol. 227 , núm. 4693 ). - P. 1435-1441 . — ISSN 0036-8075 . -doi : 10.1126 / ciencia.2983426 .
↑ Pearson WR , Lipman DJ Herramientas mejoradas para la comparación de secuencias biológicas. (Inglés) // Actas de la Academia Nacional de Ciencias. - 1988. - 1 de abril ( vol. 85 , n. 8 ). - P. 2444-2448 . — ISSN 0027-8424 . -doi : 10.1073/ pnas.85.8.2444 .
↑ Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: herramientas de Python disponibles gratuitamente para biología molecular computacional y bioinformática // Bioinformática . - 2009-06-01. — vol. 25 , edición. 11 _ - P. 1422-1423 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/btp163 . Archivado el 15 de mayo de 2020.
↑ Naohisa Goto, Pjotr Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: software de bioinformática para el lenguaje de programación Ruby // Bioinformática . — 2010-10-15. — vol. 26 , edición. 20 _ — pág. 2617–2619 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/btq475 . Archivado desde el original el 25 de febrero de 2021.
↑ Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. El kit de herramientas de Bioperl: Módulos de Perl para las ciencias de la vida // Investigación del genoma. — 2002-10-01. — vol. 12 , edición. 10 _ - Pág. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Archivado desde el original el 17 de octubre de 2019.
↑ Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: una biblioteca de bioinformática de código abierto impulsada por la comunidad // PLOS Computational Biology. — 2019-08-02. — vol. 15 , edición. 2 . — P. e1006791 . — ISSN 1553-7358 . -doi : 10.1371 / journal.pcbi.1006791 . Archivado desde el original el 14 de abril de 2021.
↑ Guía del usuario de EMBOSS . emboss.openbio.org. Consultado el 22 de mayo de 2020. Archivado desde el original el 14 de febrero de 2020. (indefinido)
↑ Ejemplo de registro de GenBank . www.ncbi.nlm.nih.gov. Consultado el 19 de mayo de 2020. Archivado desde el original el 18 de mayo de 2020. (indefinido)
↑ Manual de usuario de secuencias anotadas/ensambladas del Archivo Europeo de Nucleótidos (ing.) (txt). Archivo Europeo de Nucleótidos . Instituto Europeo de Bioinformática (12 de marzo de 2020). Fecha de acceso: 8 de junio de 2020.
↑ Manual del usuario de la base de conocimientos de UniProt . Portal de recursos de bioinformática ExPASy (22 de abril de 2020). Consultado el 8 de junio de 2020. Archivado desde el original el 13 de mayo de 2020.
↑ Formato Multi-FASTA - Metagenómica . www.metagenomics.wiki. Consultado el 19 de mayo de 2020. Archivado desde el original el 12 de agosto de 2020. (indefinido)
↑ Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A y MAP 1B son proteínas asociadas a microtúbulos estructuralmente relacionadas con distintos patrones de desarrollo en el SNC // The Journal of Neuroscience. - 1989-05-01. — vol. 9 , edición. 5 . — Pág. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . -doi : 10.1523 / JNEUROSCI.09-05-01712.1989 .
↑ : Tao Tao. Códigos de una sola letra para nucleótidos . Centro de aprendizaje del NCBI . Centro Nacional de Información Biotecnológica (24 de agosto de 2011). Consultado el 15 de marzo de 2012. Archivado desde el original el 13 de agosto de 2015. (indefinido)
↑ Códigos utilizados en la descripción de la secuencia . www.ddbj.nig.ac.jp. Consultado el 16 de abril de 2020. Archivado desde el original el 29 de septiembre de 2020.
^ Comisión Conjunta IUPAC-IUB sobre Nomenclatura Bioquímica (JCBN). Nomenclatura y simbolismo de aminoácidos y péptidos. Recomendaciones 1983 // Biochemical Journal. - 1984. - 15 de abril ( vol. 219 , n. 2 ). - pág. 345-373 . — ISSN 0264-6021 . -doi : 10.1042/ bj2190345 .
↑ Formato FASTA alineado . www.cgl.ucsf.edu. Consultado el 22 de mayo de 2020. Archivado desde el original el 24 de enero de 2021. (indefinido)
↑ Libro de herramientas NCBI C++. Formato de ID de secuencia FASTA . Kit de herramientas NCBI C++ . Consultado el 30 de mayo de 2020. Archivado desde el original el 15 de diciembre de 2020. (indefinido)
↑ Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Formatos de archivo comunes // Protocolos actuales en bioinformática. - 2006. - Diciembre ( vol. 16 , no. 1 ). — ISSN 1934-3396 . -doi : 10.1002/ 0471250953.bia01bs16 .
↑ Zahoorullah S MD. Un libro de texto de biotecnología. - SM Online Publishers LLC, 2015. - P. 6-7. — ISBN 9780996274531 .
↑ Formatos de archivo de alineación . www.jalview.org. Consultado el 1 de abril de 2020. Archivado desde el original el 19 de febrero de 2020. (indefinido)

Enlaces

Convertidor de archivos de secuencias biológicas
Instrucciones para crear un archivo en formato FASTA manualmente (ing.)

Tipo de	Formato(s)	ejemplo(s)
Local (no se refiere a bases de datos externas)	lcl\|целое число lcl\|строка	lcl\|123 lcl\|hmm271
Identificador de secuencia de red troncal GenInfo	bbs\|целое число	bbs\|123
Tipo de molécula de la columna vertebral de GenInfo	bbm\|целое число	bbm\|123
ID de importación de GenInfo	gim\|целое число	gim\|123
GenBank	gb\|код доступа\|локус	gb\|M73307\|AGMA13GT
EMBL	emb\|код доступа\|локус	emb\|CAM43271.1\|
PIR	pir\|код доступа\|название	pir\|\|G36364
PROTECCIÓN SUIZA	sp\|код доступа\|название	sp\|P01013\|OVAX_CHICK
Patentar	pat\|страна\|патент\|номер последовательности	pat\|US\|RE33188\|1
solicitud de patente	pgp\|страна\|номер заявки\|номер последовательности	pgp\|EP\|0238993\|7
RefSeq	ref\|код доступа\|название	ref\|NM_010450.1\|
El enlace de la base de datos no está en esta lista	gnl\|база данных\|целое число gnl\|база данных\|строка	gnl\|taxon\|9606 gnl\|PID\|e1632
Base de datos GenInfo integrada	gi\|целое число	gi\|21434723
DDBJ	dbj\|код доступа\|локус	dbj\|BAC85684.1\|
PPR	prf\|код доступа\|название	prf\|\|0806162C
AP	pdb\|запись\|цепь	pdb\|1I4L\|D
GenBank con anotaciones de terceros	tpg\|код доступа\|название	tpg\|BK003456\|
EMBL con anotaciones de terceros	tpe\|код доступа\|название	tpe\|BN000123\|
DDBJ con anotaciones de terceros	tpd\|код доступа\|название	tpd\|FAA00017\|
TreMBL	tr\|код доступа\|название	tr\|Q90RT2\|Q90RT2_9HIV1