// REDES - PROYECTO FINAL - 1c 2020 // // Comunidades evolutivas en proteínas // DATASET Los repeats (repeticiones) están organizados en arrays (arreglos). Cada array es una tira de repeticiones consecutivas de la misma proteína. Es posible que en la misma secuencia proteíca esté identificado más de un array. Excluímos del dataset los repeat terminales de cada array, dado que son objetos biológicos distintos a los repeat internos. Todos los repeat están curados y alineados. Las inserciones fueron eliminadas, las deleciones incorporadas como gap ('-') y los repeat completados según la secuencia original para que tengan en todos los casos 33 aminoácidos. Comentario: Como las deleciones fueron incorporadas, las coincidencias en el caracter gap '-' no deben ser consideradas al calcular la similaridad o identidad entre repeats, que se define como el número de coincidencias no-gap. Los archivos son >> internal_msa_num (MSA) Alineamiento múltiple de secuencias (repeats en este caso), en formato numérico. La información de cada repeat está en internal_repeat_info. El código numérico es 1=-; 2=A ,3=C, 4=D, 5=E, 6=F, 7=G, 8=H, 9=I, 10=K, 11=L, 12=M, 13=N, 14=P, 15=Q, 16=R, 17=S, 18=T, 19=V, 20=W, 21=Y >> internal_repeat_info Información de los repeats del MSA. Para cada fila del MSA, las columnas son -- Repeat ID -- $short.name uniprot ID de la secuencia protéica donde está el repeat $pini posición de la secuencia completa donde comienza el repeat $pfin posición de la secuencia completa donde finaliza el repeat -- Propiedades -- $nrepeats número de repeats totales en el array donde está asignado este repeat $db base de datos de Uniprot donde fue en contrado el repeat: sp (Swiss Prot, revisado), o tr (Trembl, sin revisar) #esto por ahora no importa $rep.w peso de la secuencia según una clusterización con CD-hit al 90% #esto por ahora no importa >> internal_array_energy Tabla donde cada fila representa un array de repeticiones y su energía evolutiva (interna, de superficien, total, por repetición). Las columnas de la tabla son las siguientes -- Array ID -- $array.name uniprot ID de la secuencia protéica donde está el array $array.p.ini posición de la secuencia completa donde comienza el array $array.p.fin posición de la secuencia completa donde finaliza el array -- Coordenadas en el MSA -- $abs.init.row fila del MSA donde se ubica el primer repeat del array $abs.fin.row fila del MSA donde se ubica el último repeat del array $Nrep número total de repeats del array original, antes de remover las terminales. El número de repeats internos es $Nrep-2 -- Peso -- #Esto no importa $w peso de la secuencia según una clusterización con CD-hit al 90% -- Energía evolutiva -- #Solo usemos la última (per rep) $int.coupling energía de coupling intra repeat $int.coupling.per.rep energia de coupling intra repeat normalizada por el numero de repeat $ext.coupling energía de coupling entre pares de repeats $ext.coupling.per.pair energía de coupling entre pares de repeats, normalizada por el numero de pares $energy energía total del array $local energía local $local.per.rep energía local normalizada por el número de repeat $energy.per.rep energía total normalizada más info: https://doi.org/10.1371/journal.pone.0233865