formato RÁPIDO | |
---|---|
Extensión | .fas, .fasta, .fna, .ffn, .faa, .frn, .afa, .mfa |
tipo MIME | químico/seq-aa-fasta, químico/seq-na-fasta [1] |
Desarrollador |
David Lipman [2] William Pearson [2] |
publicado | 1985 |
Tipo de formato | formato de archivo y formato de datos textuales [d] |
Expandido desde | ASCII para FASTA |
Desarrollado en | RÁPIDO |
Sitio web | http://ncbi.nlm.nih.gov/BLAST/fasta.shtml |
FASTA es un formato de texto para secuencias de nucleótidos o polipéptidos , en el que los nucleótidos o aminoácidos se designan mediante códigos de una sola letra . Por su sencillez y practicidad, actualmente es utilizado por la mayoría de los programas de secuenciación biológica . Los archivos de este formato pueden contener nombres de secuencias, sus identificadores en bases de datos y comentarios. Dependiendo de la naturaleza de las secuencias biológicas que contenga, un archivo FASTA puede tener varias extensiones .
El formato fue inventado por David Lipman y William Pearson [2] [3] en 1985 para el programa del mismo nombre , diseñado para buscar grandes bases de datos de secuencias homólogas a una dada. La descripción original del formato la hicieron ellos en la documentación de este programa, y ahora su descripción forma parte de la documentación del programa BLAST .
La simplicidad del formato FASTA facilita la realización de varias acciones con secuencias utilizando herramientas de edición de texto y lenguajes de programación de secuencias de comandos como Python [5] , Ruby [6] , Perl [7] , Java [8] .
Los formatos FASTA y FASTQ (Sanger Institute) son los más populares para representar datos de secuencias biológicas [9] . También existen otros formatos, incluidos los utilizados en los bancos de datos GenBank [10] , EMBL [11] y UniProt [12] .
Las secuencias FASTA comienzan con una descripción de una línea seguida de líneas que contienen la secuencia en sí. La descripción está marcada con un símbolo mayor que (">") en la primera columna. La palabra después de este carácter y hasta el primer espacio es el identificador de secuencia , seguido de una descripción opcional. Las siguientes líneas pueden tener un punto y coma (";") como primer carácter, en cuyo caso serán tratados como comentarios. Actualmente, muchas bases de datos y programas no reconocen los comentarios, por lo que no son muy comunes. Luego siga las líneas que contienen las secuencias biológicas reales. Normalmente, las cadenas en formato FASTA están limitadas a una longitud de 80 a 120 caracteres (por razones históricas), pero los programas modernos reconocen secuencias escritas completamente en una línea. Se pueden escribir varias secuencias en un archivo, por lo que se obtiene un archivo multi-FASTA, sin embargo, cada secuencia debe ir precedida de su propio identificador [13] . Ejemplo de una secuencia en formato FASTA: [14]
>gi|31563518|ref|NP_852610.1| proteínas asociadas a microtúbulos 1A/1B cadena ligera 3A isoforma b [Homo sapiens] MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI IRRRLQLNPTQAFFLLVNQHSMVVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENEEl identificador de esta secuencia es gi|31563518|ref|NP_852610.1|.
Las secuencias se escriben como códigos de una letra para nucleótidos o aminoácidos , que coinciden con sus códigos estándar de una letra IUB / IUPAC , en orden del extremo 5' al 3' para los ácidos nucleicos y del extremo N al extremo C para los aminoácidos se permiten espacios en ellos, los caracteres pueden ser tanto mayúsculas como minúsculas. Los programas que trabajan con secuencias ignoran los números, los finales de línea y los tabuladores .
Los ácidos nucleicos se designan [15] :
El código | Sentido | Mnemotécnica |
---|---|---|
A | A | A denina - Adenina |
C | C | Citosina - Citosina |
GRAMO | GRAMO | Guanina - Guanina |
T | T | Timina - Timina (5-metiluracilo ) |
tu | tu | U racil - uracilo |
R | A, G | pu Rine - Purinas |
Y | C, T, U | p Y rimidinas — Pirimidinas |
k | G, T, U | Bases cetónicas _ |
METRO | A, C | Bases con grupos amino (a M ino) |
S | do, sol | Interacción fuerte ( Fuerte ) en un par complementario (tres enlaces de hidrógeno ) |
W | A, T, U | Interacción débil (débil ) en un par complementario (dos enlaces de hidrógeno ) |
B | no A (es decir, C, G, T o U) | B sigue a A |
D | no C (es decir, A, G, T o U) | D sigue a C |
H | no G (A, C, T o U) | H sigue a G |
V | ni T ni U (A, C o G) | V sigue a U |
norte | ACGTU | Cualquier (un N y) nucleótido |
Hay 22 códigos comunes para aminoácidos (aminoácidos canónicos, selenocisteína y pirrolisina ), 4 códigos especiales (designaciones para conjuntos de aminoácidos) y * para designar un codón de terminación (en traducciones formales de genes ) [16] [17] .
Código de aminoácidos | Sentido |
---|---|
A | alanina |
B | Ácido aspártico (D) o asparagina (N) |
C | cisteína |
D | Ácido aspártico |
mi | Ácido glutamico |
F | Fenilalanina |
GRAMO | Glicina |
H | histidina |
yo | isoleucina |
j | Leucina (L) o Isoleucina (I) |
k | Lisina |
L | leucina |
METRO | metionina |
norte | asparagina |
O | pirrolisina |
PAGS | prolina |
q | glutamina |
R | Arginina |
S | Sereno |
T | Treonina |
tu | selenocisteína |
V | Valina |
W | triptófano |
Y | tirosina |
Z | Ácido glutámico (E) o Glutamina (Q) |
X | Cualquier aminoácido |
* | Terminación de la traducción |
El formato Fasta también se utiliza para archivos que contienen alineaciones de secuencias biológicas . En este caso, en cada secuencia, en los lugares correspondientes a las posiciones no representadas en esta secuencia, se insertan caracteres de "espacios en blanco" (generalmente un guión o un punto), como resultado, todas las secuencias en el archivo deben tener la misma longitud [18 ] .
El NCBI ha definido reglas para generar identificadores de secuencia únicos (SeqID). Se permite ingresar las siguientes variantes de identificadores en la línea de descripción [19] :
Tipo de | Formato(s) | ejemplo(s) |
---|---|---|
Local (no se refiere a bases de datos externas) | lcl|целое число lcl|строка |
lcl|123 lcl|hmm271 |
Identificador de secuencia de red troncal GenInfo | bbs|целое число | bbs|123 |
Tipo de molécula de la columna vertebral de GenInfo | bbm|целое число | bbm|123 |
ID de importación de GenInfo | gim|целое число | gim|123 |
GenBank | gb|код доступа|локус | gb|M73307|AGMA13GT |
EMBL | emb|код доступа|локус | emb|CAM43271.1| |
PIR | pir|код доступа|название | pir||G36364 |
PROTECCIÓN SUIZA | sp|код доступа|название | sp|P01013|OVAX_CHICK |
Patentar | pat|страна|патент|номер последовательности | pat|US|RE33188|1 |
solicitud de patente | pgp|страна|номер заявки|номер последовательности | pgp|EP|0238993|7 |
RefSeq | ref|код доступа|название | ref|NM_010450.1| |
El enlace de la base de datos no está en esta lista | gnl|база данных|целое число gnl|база данных|строка |
gnl|taxon|9606 gnl|PID|e1632 |
Base de datos GenInfo integrada | gi|целое число | gi|21434723 |
DDBJ | dbj|код доступа|локус | dbj|BAC85684.1| |
PPR | prf|код доступа|название | prf||0806162C |
AP | pdb|запись|цепь | pdb|1I4L|D |
GenBank con anotaciones de terceros | tpg|код доступа|название | tpg|BK003456| |
EMBL con anotaciones de terceros | tpe|код доступа|название | tpe|BN000123| |
DDBJ con anotaciones de terceros | tpd|код доступа|название | tpd|FAA00017| |
TreMBL | tr|код доступа|название | tr|Q90RT2|Q90RT2_9HIV1 |
Los guiones verticales ("|") en la parte superior de la lista no son delimitadores, sino parte del formato. Puede poner identificadores en una fila, separándolos con líneas. En caso de que alguno de los campos del identificador se deje en blanco, para garantizar la compatibilidad con los programas, es necesario colocar dos guiones seguidos [20] .
Los archivos Fasta pueden tener diferentes extensiones dependiendo de la naturaleza de los datos biológicos que contienen [21] [22] .
Extensión | Sentido | notas |
---|---|---|
rápido | Datos fasta regulares | Cualquier dato rápido. A veces también .fa, .seq, .fsa, .fas |
fna | abreviatura de "ácido nucleico fasta" | Describir secuencias de nucleótidos. |
ffn | Regiones codificantes de nucleótidos | Contienen regiones codificantes de los genomas . |
FAAA | abreviatura de "aminoácidos fasta" | Contiene secuencias de aminoácidos. La extensión mpfa se usa cuando se almacenan múltiples proteínas en un archivo. |
frn | ARN no codificante en formato FASTA | Contienen ARN no codificantes en el alfabeto de ADN , por ejemplo , tRNA , rRNA |
afa, mfa | Alineación en formato FASTA (a para "alineación", m para "múltiple") | Contienen alineaciones de secuencias biológicas (nucleótidos o aminoácidos) |