CaliPopGen: база данных генетики и истории жизни калифорнийских животных и растений.

Сбор генетических данных населения из первичных источников данных

На рис. 4 показан общий рабочий процесс сбора данных для четырех наборов данных, составляющих CaliPopGen. Сначала мы определили литературу, которая может содержать генетические данные населения Калифорнии, запросив в Web of Science Core Collection (https://webofknowledge.com/) соответствующую литературу за период с 1900 по 2020 год с использованием условий: subject = (California*) и subject = ( генетический * или геномный *) и субъект = (вид или таксон * или популяция *). Мы включили только рецензируемую эмпирическую литературу и исключили нерецензированную литературу. Используя эти поисковые термины, наша цель состояла в том, чтобы найти крупномасштабные генетические статьи, ориентированные на Калифорнию, с анализом на уровне популяции или вида, избегая при этом чисто генетических исследований или исследований, посвященных сельскохозяйственным или модельным видам. В результате было создано 4942 уникальных записи.

Рисунок 4
Рисунок 4

Блок-схема процесса сбора данных, который привел к созданию баз данных CaliPopGen.

Затем мы отсортировали заголовки и аннотации, чтобы сохранить статьи, которые: (1) предоставляли данные о популяциях видов, которые поддерживали себя сами без участия человека; (2) включал по крайней мере некоторые виды эукариот; (iii) включенное население, отобранное в Калифорнии; (iv) Указанные меры генетического разнообразия или дифференциации; и (5) не были обзорами (поэтому мы ограничиваем наш поиск только первичной литературой). Мы сохранили 1869 исследований после этого первого прохождения обзора литературы (см. Техническую валидацию для оценки внутренней систематической ошибки и внутреннего исследования).

Второй, более углубленный экзамен включал в себя чтение полного текста этих исследований 1869 г. У нас было две цели. Во-первых, мы подтвердили, что сохраненные статьи полностью соответствуют всем нашим пяти критериям включения (первый просмотр был очень либеральным в отношении этих критериев, и многие статьи не соответствовали хотя бы одному критерию после внимательного прочтения). Во-вторых, мы удалили документы, в которых данные не были представлены таким образом, который позволил бы нам извлечь информацию на уровне населения. Например, во многих исследованиях, посвященных методологии, были собраны образцы из больших, несколько нечетко определенных областей («Сьерра-Невада» или «Южная Калифорния»); Если эти районы превышали 50 км в линейном измерении, мы считали их непригодными для полезных географических выводов. Другие исследования предоставили сводку данных о популяции, часто в форме генетических сетей или деревьев, но не включали информацию о фактических генетических параметрах популяции и поэтому не имели отношения к нашей базе данных. Мы сохранили 528 сообщений после этого второго прохода.

Из этого набора документов мы извлекли виды, местонахождение и генетические данные каждой калифорнийской популяции или района отбора проб, показанных в каждом исследовании (рис. 3а).). Это включало латинское биномиальное/трехчленное имя, общее английское название, идентификаторы популяции и географические координаты мест отбора проб. Мы также наблюдали популяции/места отбора проб, которые были интерпретированы как включающие межвидовые гибриды и включающие оба родительских вида. Мы собрали статистику генетического разнообразия и дифференциации популяций для каждого уникального генетического маркера для каждой популяции/региона выборки; В результате область выборки может содержать несколько входных строк, по одной для каждого конкретного местоположения или вида. Параметры, извлеченные для каждой популяции/маркера, включают размер выборки, тип генетического маркера, генетические мишени, количество локусов, годы выборки и сообщаемые значения эффективного размера популяции (не), ожидается (часе) и обратите внимание (часа,) гетерозиготность, нуклеотидное разнообразие (πpi), аллелей на локус (АПЛ), аллельное богатство (ас), процент полиморфных сайтов (PPL), разнообразие гаплотипов (HDIV), коэффициент инбридинга (например, ФонИ ФОн онаИ Джон), и параметры попарного популяционно-генетического сравнения (ФУлицаИ ДжУлицаИ докторУлицаИ нью-йоркИ просто дили же фи). Мы отмечаем, что, хотя существуют технические различия между аллелью и богатством аллелей для каждого локуса, в исходной литературе эти термины часто используются взаимозаменяемо, и мы включаем параметры и их значения, как указано в источнике. Мы определяем тип маркера как общую категорию используемого генетического маркера (например, «микросателлитный» или «ядерный»), в то время как генные мишени представляют собой конкретный сайт/местоположение (например, «COI»). Мы представляем эти данные в виде двух отдельных наборов данных, один из которых содержит всю сводную генетическую статистику на уровне популяции (набор данных 121см. рис. 3в и подробное описание в табл. 1), а второй — для парных оценок генетической дифференциации (набор данных 221см. рисунок 3D и подробное описание в таблице 2).

Таблица 1 Описание популяционно-генетических данных в набор данных 121.
Таблица 2 Описание попарных данных генетического расстояния в формате . набор данных 221.

Все геномные данные были извлечены непосредственно из исходной литературы. Однако мы также обновили или добавили метаданные для этих популяционных генетических значений несколькими способами. Мы включили Kingdom, Reyal и таксономическую группу низкого уровня для каждого вида (обычно класса), а также обновили научные и общеупотребительные названия на основе принятой в настоящее время классификации Глобального информационного фонда по биоразнообразию.22. Когда географические координаты области выборки не были предоставлены, как это часто случалось в старой литературе, мы использовали Карты Google (https://www.google.com/maps) для указания географических местоположений на основе текстовых описаний или встроенных фигурные карты Ориентируйтесь по постоянным ориентирам, таким как излучина реки или административная граница. Поскольку это может дать только приблизительные координаты, мы записали предполагаемую точность как радиус нашей наилучшей оценки потенциальной ошибки в километрах. Если координаты указаны в градусах/минутах/секундах, мы использовали Google Maps для перевода их в десятичные градусы. В тех случаях, когда координаты не были предоставлены, а описания местности были слишком расплывчатыми, чтобы определить координаты с расчетной ошибкой координат менее 50 км, мы не пытались извлечь координаты, но все же предоставляли генетические данные. Все координаты указаны в веб-проекции Меркатора (EPSG: 3857). Мы исключили исследования, в которых сообщались значения геномных параметров только для региональных объединенных выборок («Южная Калифорния» или «Сьерра-Невада»). Если тип маркера не был включен явно, мы классифицировали тип маркера на основе зарегистрированных целевых генов, если они были предоставлены.

Сбор данных о признаках истории жизни

Чтобы повысить полезность CaliPopGen, мы также собрали данные о признаках истории жизни для всех животных (3. набор данных21) и растение (набор данных 421) Виды, содержащиеся в 1. наборы данных21 и 221. Мы собрали данные о признаках, которые, как ранее было показано, связаны с генетическим разнообразием, включая те, которые связаны с репродукцией, жизненным циклом и размером тела, а также статусом сохранения (например,23,24,25,26,). Данные истории жизни были собраны путем обращения к крупным онлайн-репозиториям, часто относящимся к таксономическим группам, таким как база данных признаков растений TRY.27Информационная база данных семян Кью Королевского ботанического сада28. Если данные о признаках интересующих видов не были доступны из этих групп, мы проводили поиск литературы по ключевым словам для каждого вида и группы признаков истории жизни и извлекали данные из первичной литературы. Когда данные для подвидов или видов, для которых у нас есть генетические данные, были недоступны, мы сообщаем значения следующего ближайшего таксономического уровня, включая семейство, как они доступны в литературе.

Как для животных, так и для растений мы определили типы местообитаний как морские, пресноводные, двуцветные, земноводные или наземные. К морским видам относятся те, что обитают в солоноватой или влажной морской среде обитания, а также виды птиц, обитающие в основном в морской среде обитания. К пресноводным видам относятся виды, обитающие в заболоченных и пресноводных местах обитания, а также виды, обитающие в основном в пресной воде. К диплоидной категории относятся виды рыб, которые являются аномальными или аномальными. Мы считали вид земноводным, если он имеет в своем жизненном цикле обязательную водную фазу, но при этом значительную часть своего жизненного цикла проводит на суше. Наземные виды были определены как те, которые проводят большую часть своего жизненного цикла на суше и не являются водными на протяжении какой-либо части своего жизненного цикла. В некоторых случаях (например, пресноводные и морские водоплавающие птицы и полуводные рептилии) виды могут быть обоснованно отнесены более чем к одному классу, и мы приложили все усилия, чтобы определить первичный класс жизненного цикла для таких таксонов. Если таксономическая идентичность записи была смешанной между видами или подвидами, это отмечалось в столбце идентификатора вида, и данные об истории жизни не сообщались.

Особенности истории жизни животных CaliPopGen 3. набор данных21 (Описание набора данных в таблице 3) включает тип среды обитания, возраст, плодовитость, пожизненный репродуктивный успех, возраст достижения половой зрелости, количество репродуктивных событий в год, метод размножения, длину и массу взрослой особи, местный статус в Калифорнии и статус листинга. в соответствии с Законом США об исчезающих видах (ESA), статусом в соответствии с Законом Калифорнии об исчезающих видах (CESA) и статусом вида, находящегося под особой угрозой в Калифорнии (SSC). Для некоторых атрибутов были записаны диапазоны значений — например, от минимального до максимального возраста. В других случаях мы записали отдельные значения и, если они были доступны, записали определение для этого отдельного значения (например, минимальный, медианный или максимальный возраст). Мы сообщаем либо диапазон возраста половой зрелости (от минимального до максимального), либо отдельное значение, в зависимости от доступной литературы. Для видов с половым диморфизмом мы сообщаем длину и вес взрослых самок, когда они доступны, потому что размер тела самок часто коррелирует с плодовитостью. В разных группах классификации животных часто используются разные меры измерения размера и длины тела, что отражает консенсус сообщества в отношении того, как измеряется размер. Учитывая эту разницу, мы сообщаем о типе датчика длины, если таковой имеется, например, о стандартной длине (SL), длине вилки (FL), общей длине (TL), длине от носика до длины отверстия (SVL) и прямолинейном щите ( SLC) ), или Размах крыльев (WS).

Таблица 3 Описание данных истории жизни животных в формате . 3. набор данных21.

Особенности истории жизни CaliPopGen набор данных 421 (Опишите набор данных в Таблице 4) включает тип среды обитания, возраст, жизненный цикл, рост взрослой особи, самосовместимость, однодомность или бидоминантность, метод размножения, опыление, схемы распространения семян, массу на семя, естественное положение в Калифорнии, NatureServe29 Классификация предметов (глобальные рейтинги и рейтинги штатов, определения см. в Таблице 5), статус в списке в соответствии с Федеральным законом об исчезающих видах (ESA) и статус в списке в соответствии с Законом Калифорнии об исчезающих видах (CESA). В отличие от большинства видов животных, возраст растений указывался как одно значение. Мы определяем жизненные циклы как: Ежегодный: завершает полный жизненный цикл за один год; Биеннале: завершает полный жизненный цикл за два года; Многолетник: завершает полный жизненный цикл более чем за два года; вечнозеленый многолетник: многолетник и сохраняет функциональные листья круглый год; Многолетник – листопадный: многолетник, теряющий одновременно все листья в течение части года. Некоторые виды изменчивы (например, у них есть однолетние и двулетние особи), и в этих случаях мы попытались описать наиболее распространенный метод.

Таблица 4 Описание данных истории жизни растений в формате . набор данных 421.
Таблица 5 Описание природоохранного статуса (ранг наследия) из Калифорнийской базы данных по природному разнообразию29.

Из-за нехватки доступных данных о хромосомах и грибах мы не извлекали данные о признаках истории жизни для относительно небольшого числа видов в этих таксономических группах.

Визуализация данных и сводка

Мы использовали пакет R. растр (Версия 3.1-5), чтобы визуализировать пространственный масштаб данных в CaliPopGen на рисунке 3. На панели (A) показан сводный график всех комбинаций, уникальных для каждого генетического разнообразия популяции в набор данных 121 Брачная дифференциация населения в набор данных 221. На панели (b) показано общее количество уникальных популяций в каждом экорегионе дикой Калифорнии. На панели (C) показаны все записи данных о генетическом разнообразии популяции. набор данных 121, собранных для каждой ячейки сетки 20 × 20 км. На панели (D) показана плотность прямых линий с четными номерами, проведенных между парами населенных пунктов при попарной дифференциации населения. набор данных 221, как общее количество линий на ячейку сетки 20 × 20 км. Популяция и виды обоих 1. наборы данных21 & 221 Они обобщены для каждого морского и наземного экорегиона в Таблице 6.

Таблица 6 представляет собой сводку общего количества популяций и видов для каждого экорегиона Калифорнии, отдельно для популяционных генетических и парных наборов данных.

Leave a Comment