LepTraits 1.0 Глобальный комплексный набор данных о характеристиках бабочек

Для этой первоначальной компиляции мы сосредоточились на сборе признаков из полевых данных и отчетов о видах, а не из первичной исследовательской литературы, поскольку каждый из них представляет собой кульминацию всесторонних усилий местных экспертов по характеристике региональных растений / фауны.25. Авторы этих руководств уже проделали тяжелую работу по изучению литературы, общению с другими учеными-естествоиспытателями и составлению записей о событиях для поддержки ассоциаций ареалов, фенологии и среды обитания.26. Мы начали с всестороннего обзора всех коллекций в Центре Макгуайра Флоридского музея естественной истории и в Библиотеке чешуекрылых и биоразнообразия Университета Флориды. Это и последующие поиски в онлайновых базах данных позволили нам составить список ссылок, которые в настоящее время содержат более 800 связанных ресурсов.

Сначала мы определили категории информации об атрибутах, доступные в каждом ресурсе, и отформатировали их в соответствии с целевыми размерами для извлечения и обработки атрибутов. Учитывая неравную доступность ресурсов между регионами, у нас была четкая цель определить набор, который увеличил бы количество извлекаемых данных о признаках как можно большего числа видов бабочек в равной степени по всему миру. Это привело к тому, что мы выбрали 117 томов в нескольких глобальных регионах (рис. 2, дополнительный материал S1) и сосредоточили внимание на показателях (длина крыла / длина стопы), фенологии (месяцы полета взрослых особей и общая продолжительность полета в месяцах) и гальванические ( количество периодов полета взрослых особей в год), привлекательность среды обитания и растения-хозяева в качестве признаков (таблица 1, дополнительный материал S2).

Таблица 1 Общее количество видов, представленных каждым признаком в LepTraits 1.0.

Чтобы использовать эти ресурсы, мы разработали протокол для сканирования каждого тома, извлечения буквальных описаний на естественном языке, обеспечения контроля качества извлечения, а затем преобразования присвоенных таксономических имен в стандартизированный список.27. Это обеспечило базу данных информации об атрибутах, где каждая «ячейка» содержала весь текст из одного ресурса, относящегося к одной категории атрибутов для одной категории. Чтобы «разбить» необработанный текст на стандартизированные метрики или определенный список описательных терминов, мы разработали соответствующую методологию для каждого атрибута. Это привело к более точному набору данных, в котором каждая «ячейка» содержала одно универсальное значение атрибута. Поскольку значения этих признаков для таксонов сильно различаются между ресурсами, мы затем рассчитали «консенсусные» признаки для каждого вида, например, среднюю длину переднего крыла (таблица 1). На рис. 1 показано графическое представление этого процесса на примере атрибута.

график 1
форма 1

Иллюстрация рабочего процесса обработки, используемого для сбора, сканирования, оцифровки, извлечения, ранжирования и агрегирования записей об атрибутах видов из литературных ресурсов. (1) литературные ресурсы были проверены на наличие данных о потенциальных признаках и собраны в единую библиотеку; (2) Каждый литературный источник был отсканирован в формате pdf, чтобы текст можно было легко скопировать и вставить из жанровых учетных записей; (3) Каждый pdf-файл был загружен в онлайн-базу данных с метаданными, связанными с каждым литературным источником; (4) Экстракторы тем использовали онлайн-интерфейс для буквального извлечения необработанного текста из определенных ресурсов; (5) фрагменты дословного необработанного текста либо автоматически (с помощью регулярных выражений и поиска по ключевым словам), либо вручную хешируются в обоснованный словарь; (6) Консенсусные признаки видов были рассчитаны путем группировки записей на уровне ресурсов по стандартизированной классификации существительных. Правила использовались для построения консенсусных признаков и подробно описаны в дополнительном материале. Согласованные атрибуты уровня ресурса и вида показаны в наборе данных.

Сбор и поглощение ресурсов

Текстовые источники из главного меню были оцифрованы несколькими участвующими учреждениями. Они отсканировали каждую страницу книги и преобразовали изображения в редактируемый текст с помощью программы оптического распознавания символов (OCR) Abbyy FineReader (abbyy.com). PDF-файлы, содержащие текст, который можно было копировать и вставлять, затем загружались в безопасную онлайн-базу данных, которая включала информацию о цитировании каждого ресурса. Географический охват каждого ресурса был определен с использованием Всемирной географической схемы (WGS).28; Эта информация использовалась для оценки географической эквивалентности наших усилий по объединению признаков. Метаданные ресурса, включая схему WGS, поддерживались вместе с каждым ресурсом в онлайновой базе данных, где люди могли получить доступ к отсканированным копиям ресурса для извлечения атрибутов.

буквальное извлечение данных

Отдельные работники были назначены ресурсу и проинструктированы копировать буквальную атрибутивную информацию из исходного источника. Затем они вставляют этот текст в соответствующее поле данных в стандартизированной электронной форме на онлайн-портале, предназначенном для облегчения извлечения и обработки. Большинство полевых справочников и других ресурсов в книге организованы в рамках таксономической иерархии для описания признаков семейства с непрерывным блоком текста, например, семейство, затем род, вид и, наконец, подвид внутри вида. Мы называем эти блоки текста, описывающие единую классификацию «учетных записей» (Например. , количество семейств и количество видов), и мы записали данные в таксономическом решении, представленном в первоисточнике. Эти таксономические порядки включали семейство, подсемейство, трибу, род, вид и подвид. Когда информация для элемента была обнаружена за пределами его собственной учетной записи, «извлекатель» (персонал проекта, обученный ручному извлечению буквального текста), назначенный для сбора данных из книги, вводил этот текст в отдельную запись для элемента. Информация об атрибутах также была извлечена из графиков и таблиц ресурса. Графические представления фенологии и вольтаики были обычным явлением, и эти визуальные данные были преобразованы в текстовые описания. Каждый ресурс извлекался поэтапно, и каждый этап проходил процесс обеспечения качества и контроля (см. Техническая проверка). Этот процесс исправлял ошибки и пытался найти неизвлеченные данные, которые экстрактор пропустил бы. Эти проблемы были исправлены до того, как экстрактор смог приступить к извлечению атрибутов из ресурса, и он также использовался в целях обучения.

просеивание

Выдержки из буквального текста были подвергнуты процессу «декомпозиции», в ходе которого необработанный текст был стандартизирован в отсортированные, легко вычисляемые данные. Это преобразование в окончательный формат данных атрибутов (числовой, категориальный и т. д.) было двойным и включало как ручное редактирование, так и полуавтоматическую декомпозицию буквального текста. Регулярные выражения использовались для большей части полуавтоматической декомпозиции, включая извлечение размеров крыльев, которые были преобразованы в сантиметры. Поиск по ключевым словам также выполнялся в полуавтоматическом конвейере по фенологии, усилиям и признакам яиц. Например, поиск «univoltine» или «uni *» выполнялся через необработанный текст voltinism вместе с другими условиями поиска. Все продукты полуавтоматического распыления прошли проверку качества и тщательный технический контроль. Задачи ручной декомпозиции выполнялись несколькими членами команды для трейтов, которые предлагали более высокую сложность. Например, ассоциации среды обитания и растений-хозяев были вручную разбиты вместе с протоколом контроля качества на основе предварительно определенных наборов правил, более подробно описанных в дополнительном материале S3.

Особенности нормализации и консенсуса

Чтобы обеспечить согласованные признаки на уровне вида (а иногда и рода), мы стандартизировали номенклатуру с помощью процесса, который мы назвали «нормализация имен», который гармонизирует таксономию во всех наших ресурсах.29. Эта процедура нормализации имен была основана на всестороннем указателе действительных имен и синонимов.27. После таксономического форматирования мы сгруппировали согласованные признаки на основе базовых наборов, определенных в метаданных для каждого признака. Например, консенсус на уровне видов для первичных и вторичных семейств растений-хозяев требует, чтобы по крайней мере одна треть записей для данного таксона существовала для определенного семейства растений (когда доступно несколько записей).

Категориальные признаки, такие как вольтовость, перечисляют все известные вольтаические паттерны вида независимо от географического контекста. С этой целью важно, чтобы пользователи этих данных понимали, что не все признаки могут быть применимы к изучаемой ими области. Например, некоторые типы могут быть с одним напряжением на более высоких широтах или высотах, но с двумя напряжениями в других местах. Поэтому мы предоставляем как записи на уровне ресурсов, так и атрибуты совместимости видов для использования в анализе.

Для этой первоначальной сводки признаков видов бабочек мы извлекли записи из 117 исследовательских статей/веб-ресурсов, в результате чего было получено 75 103 записи извлечения отдельных признаков для 12 448 уникальных видов, среди которых Калифорния. На данный момент описано 19 200 видов.27. На рис. 2 показаны географические регионы, охваченные нашими 117 ресурсами, нанесенные на карту на уровне точности — вторые регионы на глобальной географической карте.28. Полный список ресурсов можно найти в библиографии Supplementary Material S1. Точно так же географическое распределение реестров признаков показано на рисунке 3. Реестры признаков видов различались по ресурсам и консенсусу в отношении количества и диапазона таксономического охвата. В таблице 1 указано количество уникальных записей и записей на уровне типов для каждого атрибута. В таблице 2 указано количество записей на уровне видов по семействам. Атрибуты измерения, включая длину крыла и длину передней части стопы, были наиболее полными атрибутами, извлеченными из нашего набора ресурсов. Это представляет собой один из самых больших наборов данных о признаках и наиболее полный набор данных для бабочек на сегодняшний день.

картинка 2
фигура 2

Географическая широта наших ресурсов темы бабочки. Используя глобальную карту регионов второго уровня (World Geographic Chart, Promett 2001), мы указали общее количество ресурсов, доступных в каждом географическом регионе). Серые области указывают на то, что ресурсы в этом регионе не добывались.

Рис. 3
Рисунок 3

Географическая широта наших записей о чертах бабочек. Используя глобальную карту регионов второго уровня (World Geographic Chart, Promett 2001), мы указали общее количество записей признаков из каждого географического региона). Серые области указывают на то, что записи признаков не были извлечены из этого региона.

Таблица 2 Количество видов, представленных в каждом семействе в LepTraits 1.0.

Leave a Comment