RÁPIDO

formato RÁPIDO
Extensión .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa
tipo MIME químico/seq-aa-fasta, químico/seq-na-fasta [1]
Desarrollador David Lipman [2]
William Pearson [2]
publicado 1985
Tipo de formato formato de archivo y formato de datos textuales [d]
Expandido desde ASCII para FASTA
Desarrollado en RÁPIDO
Sitio web http://ncbi.nlm.nih.gov/BLAST/fasta.shtml

FASTA  es un formato de texto para secuencias de nucleótidos o polipéptidos , en el que los nucleótidos o aminoácidos se designan mediante códigos de una sola letra . Por su sencillez y practicidad, actualmente es utilizado por la mayoría de los programas de secuenciación biológica . Los archivos de este formato pueden contener nombres de secuencias, sus identificadores en bases de datos y comentarios. Dependiendo de la naturaleza de las secuencias biológicas que contenga, un archivo FASTA puede tener varias extensiones .

Historia y distribución

El formato fue inventado por David Lipman y William Pearson [2] [3] en 1985 para el programa del mismo nombre , diseñado para buscar grandes bases de datos de secuencias homólogas a una dada. La descripción original del formato la hicieron ellos en la documentación de este programa, y ​​ahora su descripción forma parte de la documentación del programa BLAST .

La simplicidad del formato FASTA facilita la realización de varias acciones con secuencias utilizando herramientas de edición de texto y lenguajes de programación de secuencias de comandos como Python [5] , Ruby [6] , Perl [7] , Java [8] .

Los formatos FASTA y FASTQ (Sanger Institute) son los más populares para representar datos de secuencias biológicas [9] . También existen otros formatos, incluidos los utilizados en los bancos de datos GenBank [10] , EMBL [11] y UniProt [12] .

Formato

Las secuencias FASTA comienzan con una descripción de una línea seguida de líneas que contienen la secuencia en sí. La descripción está marcada con un símbolo mayor que (">") en la primera columna. La palabra después de este carácter y hasta el primer espacio es el identificador de secuencia , seguido de una descripción opcional. Las siguientes líneas pueden tener un punto y coma (";") como primer carácter, en cuyo caso serán tratados como comentarios. Actualmente, muchas bases de datos y programas no reconocen los comentarios, por lo que no son muy comunes. Luego siga las líneas que contienen las secuencias biológicas reales. Normalmente, las cadenas en formato FASTA están limitadas a una longitud de 80 a 120 caracteres (por razones históricas), pero los programas modernos reconocen secuencias escritas completamente en una línea. Se pueden escribir varias secuencias en un archivo, por lo que se obtiene un archivo multi-FASTA, sin embargo, cada secuencia debe ir precedida de su propio identificador [13] . Ejemplo de una secuencia en formato FASTA: [14]

>gi|31563518|ref|NP_852610.1| proteínas asociadas a microtúbulos 1A/1B cadena ligera 3A isoforma b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

El identificador de esta secuencia es gi|31563518|ref|NP_852610.1|.

Las secuencias se escriben como códigos de una letra para nucleótidos o aminoácidos , que coinciden con sus códigos estándar de una letra IUB / IUPAC , en orden del extremo 5' al 3' para los ácidos nucleicos y del extremo N al extremo C para los aminoácidos se permiten espacios en ellos, los caracteres pueden ser tanto mayúsculas como minúsculas. Los programas que trabajan con secuencias ignoran los números, los finales de línea y los tabuladores .

Los ácidos nucleicos se designan [15] :

El código Sentido Mnemotécnica
A A A denina  - Adenina
C C Citosina  - Citosina
GRAMO GRAMO Guanina  - Guanina
T T Timina  - Timina (5-metiluracilo )
tu tu U racil  - uracilo
R A, G pu Rine  - Purinas
Y C, T, U p Y rimidinas  — Pirimidinas
k G, T, U Bases cetónicas _
METRO A, C Bases con grupos amino (a M ino)
S do, sol Interacción fuerte ( Fuerte ) en un par complementario (tres enlaces de hidrógeno )
W A, T, U Interacción débil (débil ) en un par complementario (dos enlaces de hidrógeno )
B no A (es decir, C, G, T o U) B sigue a A
D no C (es decir, A, G, T o U) D sigue a C
H no G (A, C, T o U) H sigue a G
V ni T ni U (A, C o G) V sigue a U
norte ACGTU Cualquier (un N y) nucleótido

Hay 22 códigos comunes para aminoácidos (aminoácidos canónicos, selenocisteína y pirrolisina ), 4 códigos especiales (designaciones para conjuntos de aminoácidos) y * para designar un codón de terminación (en traducciones formales de genes ) [16] [17] .

Código de aminoácidos Sentido
A alanina
B Ácido aspártico (D) o asparagina (N)
C cisteína
D Ácido aspártico
mi Ácido glutamico
F Fenilalanina
GRAMO Glicina
H histidina
yo isoleucina
j Leucina (L) o Isoleucina (I)
k Lisina
L leucina
METRO metionina
norte asparagina
O pirrolisina
PAGS prolina
q glutamina
R Arginina
S Sereno
T Treonina
tu selenocisteína
V Valina
W triptófano
Y tirosina
Z Ácido glutámico (E) o Glutamina (Q)
X Cualquier aminoácido
* Terminación de la traducción

El formato Fasta también se utiliza para archivos que contienen alineaciones de secuencias biológicas . En este caso, en cada secuencia, en los lugares correspondientes a las posiciones no representadas en esta secuencia, se insertan caracteres de "espacios en blanco" (generalmente un guión o un punto), como resultado, todas las secuencias en el archivo deben tener la misma longitud [18 ] .

Identificadores de secuencia

El NCBI ha definido reglas para generar identificadores de secuencia únicos (SeqID). Se permite ingresar las siguientes variantes de identificadores en la línea de descripción [19] :

Tipo de Formato(s) ejemplo(s)
Local (no se refiere a bases de datos externas) lcl|целое число

lcl|строка

lcl|123

lcl|hmm271

Identificador de secuencia de red troncal GenInfo bbs|целое число bbs|123
Tipo de molécula de la columna vertebral de GenInfo bbm|целое число bbm|123
ID de importación de GenInfo gim|целое число gim|123
GenBank gb|код доступа|локус gb|M73307|AGMA13GT
EMBL emb|код доступа|локус emb|CAM43271.1|
PIR pir|код доступа|название pir||G36364
PROTECCIÓN SUIZA sp|код доступа|название sp|P01013|OVAX_CHICK
Patentar pat|страна|патент|номер последовательности pat|US|RE33188|1
solicitud de patente pgp|страна|номер заявки|номер последовательности pgp|EP|0238993|7
RefSeq ref|код доступа|название ref|NM_010450.1|
El enlace de la base de datos no está en esta lista gnl|база данных|целое число

gnl|база данных|строка

gnl|taxon|9606

gnl|PID|e1632

Base de datos GenInfo integrada gi|целое число gi|21434723
DDBJ dbj|код доступа|локус dbj|BAC85684.1|
PPR prf|код доступа|название prf||0806162C
AP pdb|запись|цепь pdb|1I4L|D
GenBank con anotaciones de terceros tpg|код доступа|название tpg|BK003456|
EMBL con anotaciones de terceros tpe|код доступа|название tpe|BN000123|
DDBJ con anotaciones de terceros tpd|код доступа|название tpd|FAA00017|
TreMBL tr|код доступа|название tr|Q90RT2|Q90RT2_9HIV1

Los guiones verticales ("|") en la parte superior de la lista no son delimitadores, sino parte del formato. Puede poner identificadores en una fila, separándolos con líneas. En caso de que alguno de los campos del identificador se deje en blanco, para garantizar la compatibilidad con los programas, es necesario colocar dos guiones seguidos [20] .

Extensiones de archivo

Los archivos Fasta pueden tener diferentes extensiones dependiendo de la naturaleza de los datos biológicos que contienen [21] [22] .

Extensión Sentido notas
rápido Datos fasta regulares Cualquier dato rápido. A veces también .fa, .seq, .fsa, .fas
fna abreviatura de "ácido nucleico fasta" Describir secuencias de nucleótidos.
ffn Regiones codificantes de nucleótidos Contienen regiones codificantes de los genomas .
FAAA abreviatura de "aminoácidos fasta" Contiene secuencias de aminoácidos. La extensión mpfa se usa cuando se almacenan múltiples proteínas en un archivo.
frn ARN no codificante en formato FASTA Contienen ARN no codificantes en el alfabeto de ADN , por ejemplo , tRNA , rRNA
afa, mfa Alineación en formato FASTA (a para "alineación", m para "múltiple") Contienen alineaciones de secuencias biológicas (nucleótidos o aminoácidos)

Notas

  1. FASTA (.fasta, .fa, .fna, .fsa, .mpfa). Wolfram Research, referencia, 2007-2012 . Consultado el 19 de junio de 2015. Archivado desde el original el 19 de junio de 2015.  (Inglés)
  2. 1 2 3 Lipman D. , Pearson W. Búsquedas rápidas y sensibles de similitud de proteínas   // Ciencia . - 1985. - 22 de marzo ( vol. 227 , núm. 4693 ). - P. 1435-1441 . — ISSN 0036-8075 . -doi : 10.1126 / ciencia.2983426 .
  3. Pearson WR , Lipman DJ Herramientas mejoradas para la comparación de secuencias biológicas.  (Inglés)  // Actas de la Academia Nacional de Ciencias. - 1988. - 1 de abril ( vol. 85 , n. 8 ). - P. 2444-2448 . — ISSN 0027-8424 . -doi : 10.1073/ pnas.85.8.2444 .
  4. Peter JA Cock, Tiago Antao, Jeffrey T. Chang, Brad A. Chapman, Cymon J. Cox. Biopython: herramientas de Python disponibles gratuitamente para biología molecular computacional y bioinformática   // Bioinformática . - 2009-06-01. — vol. 25 , edición. 11 _ - P. 1422-1423 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/btp163 . Archivado el 15 de mayo de 2020.
  5. Naohisa Goto, Pjotr ​​Prins, Mitsuteru Nakao, Raoul Bonnal, Jan Aerts. BioRuby: software de bioinformática para el lenguaje de programación Ruby   // Bioinformática . — 2010-10-15. — vol. 26 , edición. 20 _ — pág. 2617–2619 . — ISSN 1367-4803 . -doi : 10.1093 / bioinformática/btq475 . Archivado desde el original el 25 de febrero de 2021.
  6. Jason E. Stajich, David Block, Kris Boulez, Steven E. Brenner, Stephen A. Chervitz. El kit de herramientas de Bioperl: Módulos de Perl para las ciencias de la vida  //  Investigación del genoma. — 2002-10-01. — vol. 12 , edición. 10 _ - Pág. 1611-1618 . — ISSN 1549-5469 1088-9051, 1549-5469 . - doi : 10.1101/gr.361602 . Archivado desde el original el 17 de octubre de 2019.
  7. Aleix Lafita, Spencer Bliven, Andreas Prlić, Dmytro Guzenko, Peter W. Rose. BioJava 5: una biblioteca de bioinformática de código abierto impulsada por la comunidad  //  PLOS Computational Biology. — 2019-08-02. — vol. 15 , edición. 2 . — P. e1006791 . — ISSN 1553-7358 . -doi : 10.1371 / journal.pcbi.1006791 . Archivado desde el original el 14 de abril de 2021.
  8. Guía del usuario de EMBOSS . emboss.openbio.org. Consultado el 22 de mayo de 2020. Archivado desde el original el 14 de febrero de 2020.
  9. Ejemplo de registro de GenBank . www.ncbi.nlm.nih.gov. Consultado el 19 de mayo de 2020. Archivado desde el original el 18 de mayo de 2020.
  10. Manual de usuario de secuencias anotadas/ensambladas del Archivo Europeo de Nucleótidos  (ing.) (txt). Archivo Europeo de Nucleótidos . Instituto Europeo de Bioinformática (12 de marzo de 2020). Fecha de acceso: 8 de junio de 2020.
  11. Manual del usuario de la base de conocimientos de UniProt  . Portal de recursos de bioinformática ExPASy (22 de abril de 2020). Consultado el 8 de junio de 2020. Archivado desde el original el 13 de mayo de 2020.
  12. Formato Multi-FASTA - Metagenómica . www.metagenomics.wiki. Consultado el 19 de mayo de 2020. Archivado desde el original el 12 de agosto de 2020.
  13. Ta Schoenfeld, L McKerracher, R Obar, Rb Vallee. MAP 1A y MAP 1B son proteínas asociadas a microtúbulos estructuralmente relacionadas con distintos patrones de desarrollo en el SNC  //  The Journal of Neuroscience. - 1989-05-01. — vol. 9 , edición. 5 . — Pág. 1712–1730 . — ISSN 1529-2401 0270-6474, 1529-2401 . -doi : 10.1523 / JNEUROSCI.09-05-01712.1989 .
  14. : Tao Tao. Códigos de una sola letra para nucleótidos . Centro de aprendizaje del NCBI . Centro Nacional de Información Biotecnológica (24 de agosto de 2011). Consultado el 15 de marzo de 2012. Archivado desde el original el 13 de agosto de 2015.
  15. Códigos utilizados en la  descripción de la secuencia . www.ddbj.nig.ac.jp. Consultado el 16 de abril de 2020. Archivado desde el original el 29 de septiembre de 2020.
  16. ^ Comisión Conjunta IUPAC-IUB sobre Nomenclatura Bioquímica (JCBN). Nomenclatura y simbolismo de aminoácidos y péptidos. Recomendaciones 1983  //  Biochemical Journal. - 1984. - 15 de abril ( vol. 219 , n. 2 ). - pág. 345-373 . — ISSN 0264-6021 . -doi : 10.1042/ bj2190345 .
  17. Formato FASTA alineado . www.cgl.ucsf.edu. Consultado el 22 de mayo de 2020. Archivado desde el original el 24 de enero de 2021.
  18. Libro de herramientas NCBI C++. Formato de ID de secuencia FASTA . Kit de herramientas NCBI C++ . Consultado el 30 de mayo de 2020. Archivado desde el original el 15 de diciembre de 2020.
  19. Leonard Shonda A. , Littlejohn Timothy G. , Baxevanis Andreas D. Formatos de archivo comunes  //  Protocolos actuales en bioinformática. - 2006. - Diciembre ( vol. 16 , no. 1 ). — ISSN 1934-3396 . -doi : 10.1002/ 0471250953.bia01bs16 .
  20. Zahoorullah S MD. Un libro de texto de biotecnología. - SM Online Publishers LLC, 2015. - P. 6-7. — ISBN 9780996274531 .
  21. Formatos de archivo de alineación . www.jalview.org. Consultado el 1 de abril de 2020. Archivado desde el original el 19 de febrero de 2020.

Enlaces