Résultats

Voici quelques résultats de construction d'arbres taxonomiques obtenus à partir de matrices de distances entre séquences. Les distances entre séquences sont les différences d'abondance relative basées sur la CGR.

Les expériences ont été réalisées avec la CGR dans le carré.

Séquences utilisées

Pour ces expériences, nous avons utilisé des séquences récupérées dans les banques de génome disponibles sur Internet. Pour chaque espèce, nous avons pris 10 sous-séquences de taille 100000, en leur ajoutant leur complément inversé.

AbbreviationSpeciesGenbank Id
homsa1 Homo Sapiens NT_022184.13
homsa2 Homo Sapiens NT_005403.14
homsa3 Homo Sapiens NT_025741.13
homsa4 Homo Sapiens NT_011520.9
homsa5 Homo Sapiens NT_011757.13
mmusMusmusculus NT_078586.1
ratn1Rattus Norvegicus NC_005118
ratn2Rattus Norvegicus NC_005117
ratn3Rattus Norvegicus NC_005107
ratn4Rattus Norvegicus NC_005105
gal1Gallus gallus NC_006097.1
gal2Gallus gallus NC_006096.1
gal3Gallus gallus NC_006095.1
gal4Gallus Gallus NC_006094.1
gal5Gallus Gallus NC_006093.1
gal6 Gallus GallusNC_006092.1
gal7 Gallus Gallus NC_006091.1
agam1Anopheles gambiae NW_045719.1
agam2Anopheles gambiae NW_045746.1
agam3Anopheles gambiae NW_045763.1
agam4Anopheles gambiae NW_045815.1
dmela1Drosophila melanogaster NC_004354.1
dmela2Drosophila melanogaster NT_033779.2
dmela3Drosophila melanogaster NT_033778.1
dmela4Drosophila melanogaster NT_037436.1
dmela5Drosophila melanogaster Arm X
dmela6Drosophila melanogaster Arm2R
dmela7Drosophila melanogaster Arm 2L
dmela8Drosophila melanogaster Arm3L
dmela9Drosophila melanogaster Arm4
dmela10Drosophila melanogaster Arm3R
celeg1Caenorhabditis elegans CHR_I
celeg2Caenorhabditis elegans CHR_II
celeg3Caenorhabditis elegans CHR_III
celeg4Caenorhabditis elegans CHR_IV
celeg5Caenorhabditis elegans CHR_V
celeg6Caenorhabditis elegans CHR_X
pfal Plasmodium FalciparumNC_004317
osat1Oryza SativaNT_036323
osat2Oryza SativaNT_079973
osat3Oryza SativaNT_080060
osat4Oryza SativaNT_080067
osat5Oryza SativaNT_080068
athal1 Arabidopsis thaliana NC_003070
athal2 Arabidopsis thaliana NC_003071.3
athal3 Arabidopsis thaliana NC_003074.4
athal4 Arabidopsis thaliana NC_003075.3
athal5 Arabidopsis thaliana NC_003076.4
baccBacillus cereusNC_004722
brajBradhyrhizobium japonicumNC_004463
ccreCaulobacter crescentusNC_002696
mlotMesorhizobium loti NC_002678
mbovMycobacterium bovis AF2122/97
saveStreptomyces Avermitilis NC_003155
scoeStreptomyces Coelicolor NC_003888
mace Methanosarcina Acetivorans C2A NC_003552
mazeMethanosarcina Mazei NC_003901
ssolSulfolobus Solfataricus P2 NC_002754.1
paerPyrobaculum Aerophilum NC_003364
stokSulfolobus Tokodaii NC_003106
afulArchaeoglobus Fulgidus NC_000917
haloHalobacterium sp NC_002607
mkanMethanopyrus Kandleri NC_003551
mther Methanothermobacter Thermautotrophicus NC_000916
pabyPyrococcus Abyssi NC_000868
phorPyrococcus Horikoshii NC_000961
taciThermoplasma Acidophilum NC_002578
tvolThermoplasma volcanium NC_002689
btheBacteroides Thetaiotaomicron NC_004663
violChromobacterium Violaceum NC_005085
ecolEscherichia Coli NC_004431
rbalRhodopirellula Baltica NC_005027
vibpVibrio Parahaemolyticus NC_004603
xcamXanthomonas Campestri NC_003902
ypseYersinia Pseudotuberculosis NC_006155
Partitions
La première partition utilisée est composée de 16 zones correspondant aux mots de 3 lettres.
Picture of the first partition used
La deuxième partition utilisée est composée de 20x20 sous-carrés réguliers du carré unité, répartis en 16 ensembles équiprobables, c'est-à-dire que chaque sous-carré a une chance sur 16 d'appartenir à l'un des ensembles. La partition comporte donc 16 zones.
Picture of the second partition used
Arbres obtenus
Les calculs de distances entre séquences en utilisant la première partition, puis l'utilisation de la méthode "Neighbour-Joining" sur ces distances donne l'arbre ci-contre (cliquer pour agrandir). Les eucaryotes sont représentés en vert, les archées en bleu et les bactéries en orange, jaune et marron. On constate que plusieurs espèces sont "mal classées". Taxonomy tree obtained with the first partition
En utilisant la seconde partition, avec des zones qui ne correspondent pas à des mots, les espèces dans l'arbre obtenu ci-contre (cliquer pour agrandir), sont "mieux classées", on distingue clairement les 3 groupes eucaryotes, bactéries et archées. Seules 3 espèces d'archées sont mélangées aux bactéries. Taxonomy tree obtained with the second partition
Choix de la partition

Le choix de la partition est crucial: certaines partitions ne correspondant pas non plus à des comptages de mots peuvent donner de moins bons résultats que la partition de 20x20 ci-dessus.

Ainsi, une partition créée avec 20x20 rectangles irréguliers répartis de façon équiprobable en 8 ensembles (aperçu ci-dessous) donne l'arbre ci-contre. Même si on distingue bien les bactéries des eucaryotes, les archées sont très mélangées.
Picture of the partition
Taxonomy tree obtained with another 20x20 partition
En prenant cette fois une partition créée avec 20x20 carrés réguliers répartis de façon équiprobable en 8 ensembles (voir aperçu ci-dessous), on obtient l'autre arbre ci-contre, dans lequel les archées et les eucaryotes sont bien isolées mais quelques bactéries sont mélangées.
Picture of the partition
Taxonomy tree obtained with yet another 20x20 partition