Снова обновлена "Копилка" (17 мая 2024 г.): теперь тут 600 видов!

Дорогие друзья!

В эфире снова новости компьютерного зрения. Напомним, что в восьмой модели автоматического распознавания видов, которая была запущена 19 августа 2022 г., были использованы новые критерии отбора видов для обучающего датасета. В мае 2024 г. они были уточнены: теперь минимальный порог равен 100 фотографиям при наличии не менее 60 наблюдений. Кроме того, помимо обучающего набора, должно быть несколько фотографий для тестирования и валидации модели. С осени 2022 г. примерно раз в месяц те виды, которые добрались до квалификационного порога, добавляются в модель без пересчёта включенных ранее видов. Это позволило заметно ускорить включение новых растений.

Новая модель (v2.13, т.е. тринадцатая ежемесячная порция обновлений "большой" второй модели) основана на данных, выгруженных из системы 31 марта 2024 г. - в ней появилось сразу 526 новых видов растений, в т.ч. 33 вида проекта "Флора России".

После этого дополнения модели, мы быстро сделали чистку "Копилки флоры России". Оказалось, что с 5 апреля 2024 г. ещё 18 видов копилки (из 500) стали известны системе, и она их предлагает пользователям при определении снимков:

Seseli arenarium Жабрица песчаная
Oxytropis revoluta Остролодочник завёрнутый
Ribes atropurpureum Смородина тёмно-пурпуровая
Oxytropis lazica Остролодочник лазистанский
Sesleria alba Сеслерия белая
Pseudocherleria imbricata минуарция черепитчатая
Crepis alpina Скерда альпийская
Campanula sarmatica Колокольчик сарматский
Salix rhamnifolia Ива жостеролистная
Ornithogalum fischerianum Птицемлечник Фишера
Heracleum ligusticifolium Борщевик лигустиколистный
Astrodaucus orientalis Морковница восточная
Pedicularis anthemifolia Мытник крупногубый
Agropyron desertorum Житняк пустынный
Taraxacum arcticum Одуванчик арктический
Achillea leptophylla Тысячелистник тонколистный
Digitalis ciliata наперстянка реснитчатая
Valerianella muricata Валерианелла мягкоигольчатая

Некоторые виды (с большинством наблюдений из-за границы или с большим числом фотографий при малом числе наблюдений) прошли порог, так и не побывав в нашей копилке:

Silene chlorifolia Смолёвка зелёнолистная
Centaurea odessana Василёк одесский
Gagea granatellii Гусиный лук Гранателли
Ornithogalum refractum Птицемлечник преломлённый
Geranium igoschinae Герань Игошиной
Bromus scoparius Костёр метельчатый
Hypecoum pendulum Гипекоум повислый
Cardamine graeca Сердечник греческий
Hippocrepis biflora Подковник двуцветковый
Prunus glandulosa Вишня железистая
Draba praecox Веснянка ранняя

Итак, каждый месяц ещё несколько десятков видов флоры России становятся известными моделям компьютерного зрения iNaturalist. В большинстве регионов свыше 95% загружаемых фотографий (в Средней России 99%) относится к таким видам, которые известны системе, а, значит, чем лучше и правильнее пользователь фотографирует объект, тем больше шансов, что он сразу получит верный ответ.

Компьютерное зрение как часть технологий искусственного интеллекта сделало возможным распознавание живых организмов по изображениям. Ещё двадцать с лишним лет назад вдохновлённые люди рассказывали о том, что развитие молекулярных методов приведёт к тому, что в руках учёного будет устройство размером с пульт от телевизора, в него можно будет положить кусочек листика, и машина с точностью сможет определить вид этого растения. Сейчас прогресс дошёл до того, что нужно просто взять смартфон, навести камеру на растение, сфотографировать его, и мы получим, причём с очень большой долей надёжности, ответ на вопрос, что это такое. О том, что такое компьютерное зрение платформы iNaturalist рассказано в лекции А.П. Серегина.

Уже после записи этой лекции в сентябре 2023 г. произошло исключительно важное событие - теперь для подсказок системы компьютерного зрения используются не данные о реальных находках, а так называемые "модели" (вероятностные карты возможных встреч вида). Этому посвящен отдельный пост (перевод на русский). Несмотря на то, что некоторые подсказки выглядят странными, их общая точность повысилась, поэтому именно моделям был отдан приоритет.

Если вам действительно важно быстро узнать, что это за растение, не дожидаясь отклика экспертов (что важно во время летнего пика наблюдений), неторопливо делайте аккуратные снимки с разных ракурсов и обязательно перечитайте пост "Как снимать, что снимать: учимся у классиков. Особенно это актуально летом, когда возможности экспертного сообщества на порядок ниже потока свежих летних фотографий.

После обновления копилки на место исключенных видов в "Копилку" добавлено 119 дополнительных видов. В итоге, наш список был увеличен на сто видов и включает теперь 600 видов! Как и прежде, после выхода обновлений мы будем регулярно менять виды, преодолевшие этот порог, на те, что находятся ниже по списку.

Ждём выход большой третьей модели, чтобы сделать текущую сверку покрытия модели и привести копилку в идеальный порядок.


КАКОВА ТОЧНОСТЬ ПОДСКАЗОК?

Давайте внимательно посмотрим на график из последнего релиза. В нем сравниваются модели 2.12 (апрель 2024 г.) и 2.13 (май 2024 г.). Показано три категории столбиков: средние значения, разбивка по таксономическим группам и по континентам (странам света). У каждого столбика две доли: точность определения собственно по фото и добавка к точности с использованием геомоделей. Здесь рассматривается только точность первой подсказки на уровне вида.

В среднем, эти показатели по всем таксонам и континентам составляют 88,2% наблюдений, которые верно определяются компьютерным зрением.

Среди таксономических групп лучше всего по картинкам определяются именно растения. С учетом геомоделей - паукообразные и растения.

По частям света (независимо от таксонов) на первом месте Европа. Тут общая точность более 92%. За ней следует Северная Америка, где точность первой подсказки около 91%.

Так что друзья есть отличная новость для участников проекта "Флора России" и всех, кто загружает растения на iNaturalist: именно растения (а особенно сосудистые растения) и именно из Европы (а, на самом деле, из внетропических областей Евразии) - это то, что нашими общими усилиями iNaturalist определяет лучше всего.


АЛГОРИТМ ВКЛЮЧЕНИЯ ВИДОВ В КОПИЛКУ

1) Ждём выхода новой модели и релиза в блоге iNaturalist по этому поводу.
2) Берем полный список видов проекта "Флора России".
3) Скриптом проверяем, какие виды не включены в текущую модель компьютерного зрения.
4) Убираем из "Копилки" виды, попавшие в текущую модель.
5) Берем топ-600 видов по числу наблюдений проекта "Флора России" (в этот раз порог 23 наблюдения).
6) Добавляем ВСЕ их наблюдения с фото из всех стран в копилку - для обучения используются в т.ч. наблюдения, сделанные в культуре.
7) Делаем новые наблюдения этих видов, загружаем их на сайт, проверяем определения.
8) См. пункт 1.


КАК МОЖНО ПОМОЧЬ?

НОВЫЕ ДАННЫЕ. Поскольку теперь используется новый алгоритм для географического уточнения подсказок системы, то ещё более важными становятся новые наблюдения всех видов, в том числе обычных и хорошо знакомых системам компьютерного зрения. Каждая новая точка будет уточнять модели ареалов, а, значит, делать предсказания еще более точными.

НОВЫЕ ФОТО. Цель копилки - максимально ускорить процесс сбора фотографий по видам, которым чуть-чуть не хватает для включения в модель автоматического распознавания видов. Эти фото будут использованы в следующем обучающем наборе. Все мы замечаем, что каждый раз модель становится всё более компетентной и редко допускает грубые ошибки. Участники целенаправленно пополняют копилку, ориентируясь как на список видов (добавляя региональные фильтры), так и на карту, по которой мы можем глянуть на ближайшие точки видов-кандидатов и постараться сделать дополнительные наблюдения именно этих видов. Поверьте: такие поиски даже в соседнем лесу могут превратиться в увлекательное приключение! Но не забывайте, что из каждого наблюдения на обучение модели пойдёт только 5 фотографий (для соответствия критерию по разнообразию гаджетов).

Вот все формальные пороги для новых видов:

  • ранг вида (гибриды, подвиды и разновидности не включаются)
  • минимум 100 фото
  • минимум 60 наблюдений
  • фото имеют определение сообщества (но не обязательно "исследовательский уровень")
  • берётся не более 5 фото из одного наблюдения

Региональные примеры

НОВЫЕ ГАДЖЕТЫ. Для ряда видов имеется недостаточное разнообразие устройств: напрямую в релизах iNaturalist об этом не говорится, но Алекс Шепард в комментариях к постам рассказал, что наложены дополнительные ограничения на разнообразие источников, из которых поступают фотографии. При выгрузке обучающего набора фотографий из их метаданных берутся сведения, на какие устройства был снят тот или иной вид. К сожалению, точные значения пороговых отметок при этом не обнародованы. Если небольшое разнообразие устройств и наблюдателей не позволяет сделать обучающую выборку репрезентативной, то такой вид оставляется в сторонке для дальнейшего накопления данных. Такие ограничения вводятся потому, что, как показал эмпирический опыт, при обучении модель становится сильно зависимой от типа и марки устройств, на которые производилась съемка и, например, может узнавать какой-то вид, снятый на айфонах, но не видеть его на прочих фотографиях.

ДРУГИЕ ФЕНОФАЗЫ. Многие виды, которые не включены в систему, скупо представлены, например, в плодах или в вегетативном состоянии. А это особенно актуально осенью! Для надежного определения видов с помощью алгоритмов компьютерного зрения нужны фотографии растений в различные сезоны. Так что съемки одного и того же вида в том же месте, но, например, с жёлтыми листьями или ранней весной также очень полезны для совершенствования нейросетевых алгоритмов.

НОВЫЕ ОПРЕДЕЛЕНИЯ. Как и в целом на iNaturalist, очень многое зависит от экспертов и их работы. Несмотря на преодоление пороговых отметок, многие виды пока не включены в модель. Почему? У части видов пока недостаточная доля наблюдений исследовательского уровня (особенно у видов с большим числом наблюдений из-за рубежа, а также в сложных группах типа Salix, Carex, Poaceae и т.п.). Так что без участия экспертов в определении фото видов-кандидатов совершенствование модели компьютерного зрения невозможно в принципе. Например, довольно много видов флоры Приморья не включены в модель из-за большого числа неподтверждённых наблюдений из Южной Кореи.

РЕЗУЛЬТАТ. Именно первое включение вида в модель основано на наиболее чистом датасете фотонаблюдений, поскольку эти изображения вручную определены экспертами и наблюдателями (без учета мнения модели). Затем неизбежно начинают накапливаться ошибки, основанные на использовании подсказок, и обучение следующей модели хотя бы частично становится основанным на автоматически определенных фотографиях. Впрочем, обучающий массив при этом неизбежно растёт.



Подписались здесь на персональные уведомления журнала "Флора России": @natalia_gamova, @marina_gorbunova, @andrey_sdobnikov, @alexfamilyteam, @serycherny, @oleg_kosterin, @oksana_serikova, @taimyr, @yurii_basov, @madmanserg, @urij777, @tsn, @pavelsus, @denis_ivanov, @daba, @yuriydanilevsky, @julia_shner, @irinabobyleva, @tatyana_ilina, @windof, @petr_kosachev, @tanniii66, @grigoriy_yashin, @svetlanakutueva, @naturalist19358, @prokhozhyj, @forestru, @marina_sad, @tls-60, @cat_arch_angel, @irina_lebedeva83, @hoktokon, @daria_dru, @millione, @nikita_gerasin, @yuliaspiridonova, @woodmen19, @konstantin_shiryaev, @sennator, @stepan_vdovichenko, @nikolaydorofeev, @anaumkin, @svetlana-bogdanovich, @aleks-khimin, @pavelkomkov, @katya, @nikolay_sobolev, @dinanesterkova, @magrat666, @svetlana_katana, @irinasavenko, @liyixuan, @eugenia_urusova, @chimik, @naturalist57011, @tatianavladimirova, @v199rus, @wildpendulum, @dakileno, @gushchina_angelina, @pyakai, @danilinav, @npz, @tivanik, @okasana, @cyathus, @cryptobasis, @ev_sklyar, @caseymclowe, @mallaliev, @beerolha, @olga-2021, @olga_neogeo, @pamari, @alex_iosipenko, @alexander_ignatenko, @dni_catipo, @yaroslavmagazov, @naturalist34144, @zhu_lixun, @liyixuan, @iljar, @phlomis_2019, @savva_chigarkov, @sansan_94, @elena526, @ivan_savinov, @a-travva, @aleksandrebel, @eliooblomoff, @natalya_vilyaeva, @antropov_alexandr, @xueqiqi, @sokolkov2002, @pavel_golyakov, @aeroself, @alexanderdubynin, @pushai, @kristina_k, @tatiana_dolgova, @volnushka, @alexanderlakomov, @tatiana_moscow, @tomegatherion, @vladimirpenzyak, @vikaryabkova, @xueqiqi, @ksenia_urakova, @eremchi, @siburhan, @tatiana_gerasenko, @kazakovdenis, @zhang_luyu, @natalia_trifuz, @divitre, @dmitrii_mostovoi, @olga2019kuryakova, @evgeniyaast, @anastasiaredflower99, @anastasiya_spb, @svetlanakhanty, @ekaterinavoinova, @sergilus, @osting, @ninacourlee, @evgeny_ananyev, @irine_shlojmis, @wkent, @mariasakal, @elena_tikhonova, @evgeniq_benihanov, @ankhen, @radlena, @gerda_new, @komar281, @lilia_rakitianskaia, @igalka, @ganser8, @nikolai_nakonechnyi, @repta, @olya333555, @atachkin, @chortovatravka, @lebedeva_na, @sergey_shitov, @tatyanapopova, @oksana_serikova, @cvetlana, @ilya_rudenko, @anisimov-43, @olga_arishina, @olga_petrova, @krestov, @zhukovskaya, @dormidontovvladimir, @vlshl, @naturalist34144, @danila_kurochkin, @natur58, @konstantin_m, @kot_s76, @eugenia_wiskasoid, @veksha, @fretkus, @m2011, @sasha_sashevich, @olga_chernyagina, @natalya_fomina, @andrey_55, @mihail_antropov, @ceu4, @stanislav_murashkin, @anna_mitroshenkova, @ashache, @qoi, @al_fa, @odonatachr, @liya15, @jin_shiying, @irinabutorina, @polyabel, @applecat22, @kolesnikovnik, @tavridaalex, @sibhedgehog, @votinceva-elena, @lancos, @mmgafurova, @lyudmila_ryzhova, @sherehora, @evgeniya2301 (если вы заполняли форму, но вас тут нет, значит, вы написали свой ник с ошибкой - заполните форму ещё раз).

由使用者 apseregin apseregin2024年05月17日 04:20 所貼文

評論

Почему в модель компьютерного зрения не включают гибриды, которые есть на iNat? Кажется я не видела в модели ни одного гибрида, которые мне попадались в природе.
Из гибридов флоры России например была бы очень полезна Фиалка Пренебрежённая (Viola × contempta). У неё почти 300 наблюдений, а в модели её нет.
Я знаю примеры не из флоры России, у которых 2-4 тысячи наблюдений и они не включены в модель. Я более чем уверена что уж для них-то все пороги вхождения давно выполнены. Особенно страдает идентификация растения в гибискусах и баугиниях, там 50% растений определяют автоматически неверно, так как большинство наблюдений приходится на распространённые гибриды.

Где-то можно почитать почему так сделано в отношении гибридов? И как-то повлиять на включение в модель?

發佈由 tatiana_chimera 18 日 前

新增評論

登入註冊 添加評論