О миграции данных из iNaturalist в GBIF

Дорогие друзья!

Постепенно к сообществу проекта "Флора России" присоединяются всё новые пользователи. Изредка мы рассказываем о том, как взаимодействуют iNaturalist и GBIF.

Итак, Global Biodiversity Information Facility - это глобальная платформа-агрегатор данных о биоразнообразии. Их здесь очень много: 1 627 124 225 фактов присутствия того или иного вида в той или иной точке. Это и наблюдения, и образцы, и окаменелости, и литературные данные. Чтобы все эти данные оказались доступны в одном месте (https://www.gbif.org/), 1667 организаций по всему миру объединили здесь свои 54 714 баз данных - больших и малых. Любой пользователь может освоить несложную поисковую систему GBIF и найти то, что ему интересно.

Конечно, среди баз данных о биоразнообразии есть очень большие массивы! Вот, как выглядит десятка самых больших:

  1. EOD - eBird Observation Dataset 705 008 469
  2. Artportalen (Swedish Species Observation System) 78 452 040
  3. Observation.org, Nature data from around the World 39 969 765
  4. DOF - Observations from the Danish Ornithological Society 24 938 598
  5. Norwegian Species Observation Service 23 862 233
  6. iNaturalist Research-grade Observations 21 371 101
  7. INPN - Données flore des CBN agrégées par la FCBN 20 999 334
  8. Southern African Bird Atlas Project-2 14 541 771
  9. Waarnemingen.be - Bird occurrences in Flanders and the Brussels Capital Region, Belgium 12 811 851
  10. OEH Atlas of NSW Wildlife 12 539 625

А вот как выглядит другая десятка - с данными по сосудистым растениям.

  1. INPN - Données flore des CBN agrégées par la FCBN 20 960 245
  2. Artportalen (Swedish Species Observation System) 13 292 318
  3. Dutch Vegetation Database 11 108 794
  4. Danish government nature monitoring portal "Danmarks Miljøportals Naturdatabase" 10 148 484
  5. iNaturalist Research-grade Observations 8 025 965
  6. Flore du Bassin parisien (CBNBP) 7 788 041
  7. Flora von Deutschland (Phanerogamen) 7 657 152
  8. Floristic records from survey studies of the Bayerisches Landesamt für Umwelt 7 112 618
  9. Occurrence Data of Vascular Plants collected or compiled for the Flora of Bavaria 6 994 791
  10. Localización de táxones botánicos de interés para la identificación de hábitats de la REDIAM (Secretaría General de Medio Ambiente, Agua y Cambio Climático) 6 467 790

Как видно из обоих списков, данные из iNaturalist являются одним из ведущих источников данных в GBIF - как по всем группам живых организмов, так и по сосудистым растениям. Смотрите карту этих точек. Как говорится, наша страна самая большая в мире, поэтому нам придётся больше всех в мире работать. Верно?

А ниже дана карта точек основного конкурента iNaturalist в документации разнообразия сосудистых растений - французской платформы Pl@ntNet. Масштаб карты и места концентрации точек немного скрывают их реальное число: по флоре России на первой карте 700 000 точек, а на второй - 28 000.

На iNaturalist свыше 53 млн наблюдений, а в GBIF попадает лишь 21 млн. Почему? Дело в том, что одновременно:

  • наблюдение должно иметь исследовательский статус;
  • наблюдение должно иметь открытую лицензию (CC0, CC-BY, CC-BY-NC);
  • а сами данные при этом публикуются с задержкой (сейчас данные от 22.10.2020).

Давайте сравним две ссылки на одно и то же наблюдение:

https://www.gbif.org/occurrence/2882925758
https://www.inaturalist.org/observations/61666594

Автор не указал своего настоящего имени в профиле, поэтому в GBIF он числится как "ctahkih". Не нужно менять ник - достаточно указать настоящее имя в профиле в соответствующем разделе. Наблюдение сделано недавно (в октябре), поэтому в паспорте образца в iNaturalist ссылка на GBIF пока не появилась (обратная ссылка на сайте GBIF имеется с момента заливки). Интересно и то, что это наблюдение было создано с помощью приложения Seek.

У GBIF своя номенклатура, которая автоматически стыкуется с названиями iNat, а также имеется в расширенном поиске фильтр по автору находки, так что можете выбрать и посмотреть, какие ваши наблюдения попали в GBIF. Недавно там появился поиск по административным единицам (правда, карта заложена 10-летней давности, так что границы Москвы и Подмосковья, например, старые).

Если вы хотите, чтобы ваши наблюдения попали в GBIF, то необходимо удостовериться, что у вас выставлена открытая лицензия. О том, как это сделать написано с иллюстрацией в этом посте: https://www.inaturalist.org/projects/flora-of-russia/journal/39331-obnovlen-massiv-dannyh-inaturalist-v-gbif-11-avgusta . Если у вас не проставлена лицензия, то в карточке каждого наблюдения у вас в правом нижнем углу написано "Все права защищены", если проставлена, то, как правило, - "Некоторые права защищены".

Традиционно: тэги тех участников, кто еще не перешел на открытые лицензии (таких 14%). Вдруг, передумают?

Вот пользователи (из числа топ-500 наблюдателей по флоре России), которые пока не перешли на свободные лицензии, а потому их данные не идут в GBIF:

@sergeyus -1442 наблюдений
@natalya1406 -1435 наблюдений
@evgeniy_benikhanov -1251 наблюдений
@tarasov -1043 наблюдений
@evgenyi_eg -767 наблюдений
@vera_chistyakova -740 наблюдений
@naturalist19164 -671 наблюдений
@annalaenko -669 наблюдений
@nellysemenova -609 наблюдений
@naturalist26231 -603 наблюдений
@tbsilaeva -598 наблюдений
@artem2013 -515 наблюдений
@khairulla -499 наблюдений
@nadya9 -496 наблюдений
@tatyana20 -495 наблюдений
@alakey -482 наблюдений
@nikita_grechesky -460 наблюдений
@missnarjess -443 наблюдений
@svetlana_koveshnikova -403 наблюдений
@olgakrilova -401 наблюдений
@naturalist38499 -400 наблюдений
@naturalist35087 -387 наблюдений
@naturalist14385 -382 наблюдений
@annagamzina -379 наблюдений
@daria1813 -379 наблюдений
@deniszhbir -377 наблюдений
@brodaga59 -368 наблюдений
@julujka -364 наблюдений
@julia_fodina -355 наблюдений
@cvetlana -355 наблюдений
@simonkamnev -353 наблюдений
@marinakhanduyk -347 наблюдений
@natalia_trifuz -341 наблюдений
@irinaber -339 наблюдений
@kkatya -320 наблюдений
@borovicheveugene -309 наблюдений
@lubovschnaider -308 наблюдений
@proshinmaxim -307 наблюдений
@naturalist33665 -304 наблюдений
@vera124 -301 наблюдений
@vicia -300 наблюдений
@olesiahaha -298 наблюдений
@angelinaguryanova -294 наблюдений
@vlbury -293 наблюдений
@dmitry_kulakov -291 наблюдений
@yanabykova09 -283 наблюдений
@keytmaksimova -272 наблюдений
@angelina237 -272 наблюдений
@justcorpse -269 наблюдений
@anastasialoseva -266 наблюдений
@rudentzova -266 наблюдений
@alena_golovchenko -263 наблюдений
@marinakrygina -262 наблюдений
@digitata -256 наблюдений
@naturalist_nadezhda -252 наблюдений
@karpova -250 наблюдений
@naturalist13989 -250 наблюдений
@alexandrtichonov -248 наблюдений
@irinaki -246 наблюдений
@freikeit -246 наблюдений
@acanthisflammea -244 наблюдений
@verba -244 наблюдений
@naturalist41466 -234 наблюдений
@denis190 -233 наблюдений
@naturalist38875 -220 наблюдений
@nataliashevchenko -220 наблюдений
@naturalist31500 -217 наблюдений
@nekto -215 наблюдений
@naturalist42003 -211 наблюдений
@zoyagolovkova -211 наблюдений
@kristina_gayderova -209 наблюдений
@polivin_emil -207 наблюдений
@naturalist35099 -206 наблюдений
@anton_nikolaev -205 наблюдений

Отдельно отмечу, что все (!!!) топ-100 наблюдателей проекта "Флора России" перешли на свободные лицензии (в топ-200 пока 9 человек этого не сделали). Доля наблюдений проекта, заблокированных жёсткими лицензиями, сократилась до 13,0%! Это наше большое общее достижение в деле открытого доступа к данным о биоразнообразии. Большое спасибо, что не оставили без внимания предыдущие посты о GBIF. Возможно, в этот раз отклик будет еще шире.

Зачем всё это нужно?

Самый простой ответ заключается в том, что именно из GBIF исследователи выгружают данные о растениях, грибах и животных в удобном виде (csv-выгрузки). Каждая такая выгрузка получает doi, с помощью которого отслеживаются цитирования в научных исследованиях. Так, массив данных iNaturalist (https://www.gbif.org/dataset/50c9509d-22c7-4a22-a47d-8c48425ef4a7) процитирован через GBIF уже 847 раз! Это рекорд среди всех участников GBIF.

由使用者 apseregin apseregin2020年11月08日 11:27 所貼文

評論

尚無評論。

新增評論

登入註冊 添加評論