Hodnoty bootstrapu

Co hodnoty bootstrapu naznačují o vztahu mezi druhy? „Pracuji na programu Mega, ale nerozumím, co znamená hodnota bootstrapu jednoduše a co to naznačuje o vztahu mezi druhy

Komentáře

  • Vítejte v Biology.SE! Jaký výzkum jste provedli, než se ho zde zeptáte?

Odpověď

Hodnoty bootstrap patří do široké kategorie hodnot zvaných hodnoty podpory . Hodnoty podpory se obecně používají k označení hodnoty míra, do jaké lze věřit, že větev představuje nějaký „signál“ přítomný v datech.

Zejména hodnoty bootstrapu ukazují, jak robustní větve ve stromu jsou, tj. jak odolné jsou vůči narušení dat. Získávají se opětovným vzorkováním sloupců v datové matici a vytvářením stromů z těchto znovu vzorkovaných matice a při pohledu na podíl získaných stromy, které obsahují danou větev.

V případě bootstrapu se krok opětovného vzorkování provádí následujícím způsobem: Předpokládejme, že původní datová matice má N sloupců (tj. N kódované znaky, kterými mohou být nukleotidy nebo aminokyseliny v pořadí sekvencí, morfologické znaky, přítomnost-nepřítomnost genomických znaků atd.). Nová matice bude získána náhodným nakreslením jednoho z těchto sloupců, N krát. Nová matice bude mít tedy stejný počet znaků, ale některé z původní matice budou přítomny vícekrát a některé budou chybět. To ovlivní topologii stromu. Například pokud větev byla podporována znaky, které nyní chybí, tato větev se již nemusí zobrazit s tímto konkrétním opětovným vzorkováním. Opětovné vzorkování se obvykle provádí přibližně 100 nebo 1000krát.

Nízká hodnota bootstrapu znamená, že pokud je strom vytvořen pomocí podmnožiny dat, je pravděpodobné, že se tato větev neobjeví.

Vysoká hodnota bootstrapu znamená, že větev se pravděpodobně objeví na stromu vytvořeném z takové matice s novým vzorkováním. To však nutně neznamená, že větev pravděpodobně představuje skutečné historické vztahy: někdy mohou být rekonstrukční artefakty robustní. Například u některých metod rekonstrukce molekulární fylogeneze mohou být taxony seskupeny na základě podobností ve složení genomu. Vysoké hodnoty bootstrapu naznačují, že v datech podporujících větev je silný signál, ať už historický, nebo jiný.

Komentáře

  • Pěkná odpověď + 1. Nevadilo by vám objasnit, jak převzorkujeme. Pouhé vysvětlení, jak jsou data uspořádaná v matici, může pomoci objasnit, co re-sampling columns in the data matrix ve skutečnosti znamená. Znamená to podmnožinu sekvenovaných SNP, nebo jednotlivců, kteří jsou k dispozici, nebo nějaké jiné předem zpracované statistiky atd …?
  • @ Remi.b Snažil jsem se trochu rozšířit svoji odpověď. Jedná se o opětovné vzorkování znaků (konvenčně kódovaných jako sloupce), nikoli jednotlivců (konvenčně kódovaných jako řádky). Všimněte si, že opakované vzorkování jedinců by vedlo ke stromům na různých sadách taxonů, a proto by bylo nemožné jednoduše porovnat větve mezi stromy a vypočítat hodnoty podpory větví.
  • @ Remi.b Pokud umíte číst Francouzsky a zajímají vás tyto věci hodnot podpory, možná se podíváte na úvod mé práce (strany 9 a 10 tel.archives-ouvertes.fr/tel-00331825 ). Vidím, že jsem zmínil " perturbations de l é chantillonnage taxinomique " způsobem měření robustnosti, ale ' si nepamatuji, co jsem měl na mysli …
  • Páni, nevěděl jsem, že lidé stále píší doktorské práce ve francouzštině! Připadá mi to jako bolest, která musí překládat vaše publikace z angličtiny do francouzštiny jen pro tuto diplomovou práci. Ano, umím číst francouzsky. Díky za odkaz.
  • Ve Francii si myslím, že je stále docela běžné psát diplomové práce ve francouzštině (zejména v humanitních oborech, ale nejen). Hlavní text práce byl napsán ve francouzštině, ale články byly zahrnuty tak, jak jsou, v angličtině. Jsem ' šťastná, že mohu psát ve svém mateřském jazyce: ten zážitek mi byl mnohem příjemnější.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *