
tantin
Потребител-
Брой отговори
6441 -
Регистрация
-
Последен вход
-
Days Won
24
Content Type
Профили
Форуми
Библиотека
Articles
Блогове
ВСИЧКО ПУБЛИКУВАНО ОТ tantin
-
Заради теста и заради големия интерес към аланите, направих ви още един репорт, справка: Разяснителни бележки:
-
-
Ето и аз да дам един пример с CHG. След филтрирането ни остават едвам 5800 снипа, но и това си е ОК за целта. Все пак това са 1066 индивида в 51 групи . Резултати:
-
Дотук много добре. Щом си подкарал и Ф3 вече имаш почти всичко. Относно тълкуването: Ф3(а,в,с) равно на (а-с)(в-с) а - шимпанзето в- Кавказкия ловец с - тия дето тестваме. По принцип колкото по в средата е "с" токова по-отрицателно трябва да стане ф3. Обаче при теб вече са над нулата, тоест вече са се отклонили от средата. Тоя с по- близкото до 0 е съответно по-близък до CHG. Тоест руските алани имат малко повечко Клс компонент.
-
.. сега забелязах нещо.. това вкарване вътре на c(pop3, pop4) - функция във функция може да не работи добре. Особено ако си пробвал по същия начин с Ф3.. За предпочитане да си ги сложиш в друга променлива и да ползваш новата променлива наместо функцията. Примерно: pop_34 = c(pop3, pop4) fst(prefix, pop1, pop_34, adjust_pseudohaploid = FALSE) Най-вероятно затова Ф3 не е тръгнало.
-
Ето примерно как се прави изчисляването на тия precomp данни: # първо задаваш си къде е директорията: my_f2_dir = "C:/Users/Кухулин_123" # после правиш самото изчисление на precomp данни с екстракт функцията: extract_f2(prefix, my_f2_dir, inds = NULL, pops = mypops, blgsize = 0.05, maxmem = 8000, maxmiss = 0, minmaf = 0, maxmaf = 0.5, pops2 = NULL, outpop = NULL, overwrite =T) # Тука mypops = pop1 + pop2 + pop3 + pop4 - всичките трябва да ги има в тоя списък # после ги четеш от директорията: f2_blocks = f2_from_precomp(my_f2_dir, pops = mypops) # И после директно с тях си изчисляваш: f4(f2_blocks, pop1, pop2, pop3, pop4 )
-
За утре имаш следната задача: Вместо това: prefix f4(prefix, pop1, "Chimp.REF", pop3, pop4) Ще ползваш f2_from_precomp Обаче трябва малко подготовка, да си подготвиш един фолдер дето да се запишат прочетените данни и ти оттам да ги ползваш наготово , а не всеки път да ги смяташ на ново и наново.. Има го добре обяснено в оня workshop. f2_blocks = f2_from_precomp(my_f2_dir, pops = mypops) вече като подкараш Ф4 с опцията f4(f2_blocks, pop1, pop2, pop3 ) ще видиш как стават другите неща.
-
Едва ли.. При толкоз включени снипове: Computing block lengths for 1150639 SNPs... Но да.. Вероятно си прав. Не знам точно какво търсиш или какво очакваш . Близост или раздалечаване? Не забравяй че имаш и Ф3, която дори е по-лесна от Ф4. С Ф3 по-лесно можеш да докажеш близост, или кой е по средата. Зет се изчислява по същия начин. f3(prefix, pop1, pop2 , pop3)
-
За момента не го мисли това със z, всяко нещо с времето си. Z мисля че го изчисляваха като z= est/se . За днес това ти е предостатъчно. Запази някоя друга мозъчна клетка за утре.
-
Сега бачо Кухулине, слушай внимателно: взимаш си файла: v54.1.p1_1240K_public.ind / да речем че с тая база работиш. Отваряш го с ноутпад.. И си избираш кой индивид искаш да провериш. да речем за тия индивиди: DA160_noUDG.SG F Russia_Alan.SG DA162_noUDG.SG M Russia_Alan.SG DA164_noUDG.SG F Russia_Alan.SG DA243_noUDG.SG M Russia_Alan.SG Намираш ги във файла ти къде са: и ги заместваш по тоя начин: DA160_noUDG.SG F DA160_noUDG.SG DA162_noUDG.SG M DA162_noUDG.SG DA164_noUDG.SG F DA164_noUDG.SG DA243_noUDG.SG M DA243_noUDG.SG веднъж като го презапишеш тоя файл, (save), мошеж да си правиш проверката директно по индивид. Няма нужда да ползваш груповото име Russia_Alan.SG , а ползваш индивидуланото име за съответния индивид. Правиш си бакъп на оригиналния v54.1.p1_1240K_public.ind ако решиш да го ползваш пак с групата вместо по индивидите.
-
F4 статистиките работят само с действителни снипове, където тия снипове са представени при всичките тествани популации. Ако липсват сниповете - то се прави филтриране на липсващите снипове и се махат същите от всичките тествани популации. Докато Г25 и разни други методи правят изчисленията на базата дистанции. И после ти показват апроксимации. Примерно само на базата на 1-ва хромозома ти можеш да дадеш приблизителна оценка къде е позицията на индивида по всичките 22 хромозоми. И при това едва ли ще имаш грешка в повече от 20 %.. Ф4 статистиките ни позволяват да си правим тестове с много окастрени данни, да сравним тия окастрени данни с окастрените данни от другите групи и да преценим взаимното им разположение едни спрямо други.
-
Ами виж сега, тия групи дето ги сравняваш са сбирщина, зависи само от хората на Райх кого са избрали да сложат към тях в списъка. В твоята извадка влизат 71 човека, разпределени в тия 4 групи. Както вече коментирахме подобно за Южнат дъга, оказва се че те ги групират по доста съмнителни критерии. Така че не им се предоверявай.. Като задобрееш малко ще ти помогна как да правиш проверки директно по индивидите. В тая извадка която ползваш участват почти 950 000 снипа, което е огромно и премного. Резултатите ти показват също доколко тези групи са близко и е трудно да ги разграничим една от друга. Вземи вкарай накои монголци и индиянци и да видим какво ще ти покаже. И разбира се пробвай с ЗЕЛС. (Лошбур).
-
Ами ето, вече мериш директно от първоизточника! Fst ни дава директното разтояние от едната група до другата. Или ако работиш с индивидите: от един индивид до друг. Ф4 ни дава същото разтояние, но вече като проекция на единия вектор върху другия. При Ф4 вече го дискутирахме, там си задаваш един дълъг огромен вектор и го ползваш като координатна ос, и върху тая ос проектираш малкия вектор или това което са Фст.
-
ако искаш да гледаш разтоянията, ползвай: fst() примерно fst( data, pop1 = ALANS , pop2 = mypop ) , където mypop са всичките
-
Браво, добре си се потрудил. Добре си го настроил щом си стигнал до първи резултати. Отлично !
-
Чак сега се ориентирах какво те правят с тоя клъстър: взимат усреднената стойност за целия клъстър и го моделират като сума от 5 компонента. Изчисляват каква е грешката / отклонението/ и някаква величина P - вероятност или разпределение, не ми се търси какво точно е. И понеже Р е най-високо в последната 16-та колона, то те приемат че тоя модел е най-правдоподобен.. И така Месопотамците се оказват наедно в моделчето заедно в ямненци, Левант и турския мармара-барсин.. Само че това си е чиста манджа с грозде. Щото първо на първо клъстъра ни е от кол до въже. Събрани от къде ли не. След това и компонентите на модела са още по голям кол и по-отъркано въжето.. И накрая месопотамци ни се привиждат на Балканите.. Да има да взема прабаба ми египетската принцеса.. Ей такива ми ти апроксимации е направил ЙЛ. Почвам да разбирам що Кухулин изнедоволства в предишен постинг.
-
По-скоро си мисля че от бързане са претупали някои неща. Искали са по-бързо да публикуват резултат. Примерно за балканския клъстър: Хубаво, обаче индивидите ги няма. Има ги редовете, има ги съставните компоненти, но заглавията на индивидите ги нямаме. Кои са в Балканския клъстер? Имаме ги на картинката, дадени са че са общо 172 индивида. На стр. 188. Ето кои влизат в балканския им клъстър
-
Сега го погледнах тоя клъстер в ексел файла им: той е огромен тоя клъстер и се слива с вкючително JOR_PPNB Boncuklu_PPN. Но това не е Балканския клъстер, а е някакъв комбиниран клъстер със 114 проби. Балканския го дават че има само 16 проби. И дори им дават разбивката по компоненти. Както казахме, това си е типичната дървовидна структура, подобно биологичните класификации, с всякакви клони, подклони, малки клончета и така.
-
Аз не сам си давал труда да видя кои точно проби са към КА клъстера в официалната им публикация. Аз си пусках мои си сметки по данните и при мен също ми ги дава в подобен клъстер. По моята оценка тия от КА съдържат по-древни гени, един вид са предшестващи Микена и Миноя, но това го казвам много предпазливо.. Факт е обаче че са близки.. без значение в коя посока е стрелката. Примерно поглеждаш кавказки ловци събирачи или ЗЕЛС - разликата с КА / микенците е огромна... Поглеждаш бачокировците - от там до КА пак имаме огромна разлика. Обаче ако погледнеш BK - пещерата муерти, джуджуана и после Мокрин - КА - излизаме на нещо като права линия, последователност. И си се нареждат във времето. Един вид наслагваш ги един в друг.. След КА вероятно слагаме Микена, че дори и Миноя.. Но вече дистанциите при КА Микена Миноя са много малки и групирането по клъстъри става доста по-проблематично.
-
Хората ясно го обясняват: изпробвали са 5 начина за групиране в клъстери. При това са сравнявали получените извадки по време, география, археология и прочие и са търсили някакво по значимо разпределение. Така получените клъстери по 5-те метода са ги сравнили, търсили са такова групиране, дето примерно да се повтаря и при 5-те метода. Идеята е да се намерят такива стабилни групи, дето да не се разпадат с най-малка промяна на критериите. И горе долу са намерили някакво такова по-стабилно разпределение, дето по който и метод да се разгледа да има някакво практическо значение и обяснение. Основната база за разпределяне в клъстери се формира от ПСА данните. Гледат се разтоянията между всеки 2 индивида. Това може да се прави и през Ф2 статистиките. Софтуер предлагащ такова групиране в клъстери е йерархическите клъстери. Примерно задаваш някаквъв коефициент =14 - да речем че искаме да групираме цялата база в 14 групи. Можем и на 150 групи да ги разделим. Има програми дето да предложат оптималния коефициент, борй на клъстерите. Има различни математически методи за апроксимация и групиране.. Тоест самото групиране в клъстери е повече софтуер, математика и алгоритми. Но те му правят и преглед през география , време, археология.. И така дават тяхна си версия с такива клъстери.. Но пак да си го кажем че това не е абсолютно , еднозначно и финално решение.. В следваща публикация може да излязат с друго групиране.
-
За да ги разбереш тези клъстери трябва да видиш към оригиналната публикация: с кой софтурер са ги изчислявали, на какъв критерий са ги разделили и прочие. Щото само да смениш малки параметри по настройките и ще получуш други клъстери. Или пък един и същи клъстер може да го разцепиш на още под-клъстери. В общи линии това е относително. Но нека да кажем няколко принципа за формиране на клъстерите: 1. област с близки стойности на индивидите: групират се в някаква област, разтоянията между индивидите са в рамките на някакви стойности. 2. Групиране около един или няколко индивида. На мен тези ми се струват по-надеждни клъстери. Измерва се разтоянието до централния индивид. Примерно избираш 50-те най-близки индивида. Обаче изобщо не е задължително всичките 50 да са част от 1 клъстер. Възможно е само първите 5 да са в клъстера, а другите 45 да са някъде много надалеч. Аз мога да ти дам и трети още по-строг критерий за клъстер. Понеже мерките са много-дименсионни, клъстер е област в която разтоянието от центъра на клъстъра до периферията е такова че разтоянието между отделните точки в периферията е по-голямо отколкото разтоянието до центъра. Това дори няма точна аналогия в 3-мерното пространство, тоест има аналогия, но е по-особено. Примерно взимаш една сфера и вписваш в нея такава фигура, дето разтоянията между ръбовете да са по-големи отколкото разтоянието до центъра.. Ето това е пример за клъстър около центъра на тая сфера.. Е представи си сега че КА са център на подобна сфера.
-
Бачо Кухулине, остави ги тия Г25, вземи си инсталирай R-studio, и ако искаш може да си ровиш в данните колкото си искаш. Но тия балканските групи са много наблизко. Има тук таме нещо архаично да изскача, но много трудно дори да кажеш откъде се е пръкнало, може да е от Азия, може от Леванта, може и от Сев.Африка. Като се засече някаквъв ясен сигнал е доста по-лесно. Но примерно Етруските: ясно се групират в клъстер, при това клъстера им е Европейски, централно Европейски. Ходи ги доказвай че били Азиатци от Мала Азия.. За момента най-преспективни ми се виждат Мокрин, има също едни хърватски от Попова Нива мисля.. С Г25 нищо не може да се каже и докаже, понеже броя на основните компоненти е малък. Трябва да се гледат повечко компоненти за да се гледа в подробности, с голяма разделителна способност. Основните компоненти ни дават инфо за общото положение. Ако искаш да гледаш локални подробности: 2 начина .. 1. Ползваш много компоненти.. 2. Взимаш локална извадка и правиш детайлен пс анализ само за тая извадка, за да изскочат локалните и принципни компоненти.
-
Това се получи при една от извадките дето бях правил там с теб като гледахме оня клъстър. Иначе откъм историческо тълкуване изобщо не съм си правил труда да ровя . Когато имаме някакъв голям клъстър, тия дето са най-в центъра са първоизточника, началото. Колкото повече се отдалечаваме от клъстъра, генетичната дистанция се увеличава. В оня клъстър дето го гледахме КА се получават в центъра. Ако се добавят и още проби, може да се получат и други клъстъри. По принцип в клъстър се групират индивиди, дето имат общо засичане по множество принципни компоненти. Примерно по голямата част на принципните компоненти стойностите им са близки.. Обаче се появява някаква нова принципна компонента, където никой друг я няма, а тия от клъстара и само те я имат.. По това много лесно можем да ги изхващаме. И при това тия дето ще покажат максимум в тоя клъстър ще са най-ярките представители, основателите на клъстера.. С времето тия макс. компоненти на клъстъра се разреждат и растварят в околните популации.
-
Дайте да коментираме пак за Мокрин. Изскача ми една близост от Джуджуана към Мокрин. А Джуджуаната от своя страна са най близко към късния бачокировец и пещерата Муерти. Тоест това са наследници на Европеиския палеолит. Обаче имаме западно европейски палеолитчици ЗЕЛС. И кавказки такива КЛС. Мокрин се очертават за най-добри кандидати да са наследници на автентичните балкански ловци събирачи БЛС... (БЛРС) български ловно рибарски съюз. Нали улавяте тънката разлика: БЛС са балканци, автохонисти.