介紹 《愛自然》 生物分布地理模型
今天,我們將建議上的「附近可見(Seen Nearby)」標籤更改為「附近預期會出現(Expected Nearby)」。這個標籤來自我們首次介紹的愛自然生物分布地理模型所做的預測。
什麼是「生物分布地理模型」?
你們大多數人都熟悉 《愛自然》 的電腦視覺模型,它將照片作為輸入,並根據視覺上的相似性顯示最有可能的物種作為輸出。我們在一組約 80,000 種足夠資料的生物上訓練該模型,並每月更新(今天我們發布了 2.7 版本)。
《愛自然》生物分布地理模型以位置為輸入,返回該位置上最有可能的物種作為輸出。像電腦視覺模型一樣,它是一個深度學習模型,根據相同的分類群資料集來進行訓練,並按相同的每月計劃更新。我們與協助開發 iNaturalist 電腦視覺模型的 Visipedia 團隊合作開發和發表了生物分布地理模型。下面的地圖顯示了美洲鼠兔(Ochotona princeps)的生物分布地理模型預測。地理模型僅使用 iNaturalist 觀察紀錄和海拔梯度圖上來訓練。
從網格觀測到生物分布地理模型預測
自今年六月起,《愛自然》 使用生物分布地理模型為電腦視覺建議加權。從今天開始,我們使用「生物分布地理模型」來套用至「附近預期會出現」標籤中。
之前,我們使用原始觀察紀錄的網格版本來為電腦視覺建議加權並套用在附近可見的標籤上。我們計算每個物種在1度網格(grid cell)上的相對觀察記錄之數量。如果在周圍的9個網格中有該分類群的任何觀察紀錄,我們會將「附近可見」之標籤套用於建議上。我們使用網格中的相對觀察紀錄數量為電腦視覺建議來加權。注意,由於一筆錯誤鑑定的觀察紀錄,墨西哥角蟬(Membracis mexicana)在巴西南部的網格可能出現。
我們現在使用地理模型預測的「附近預期會出現的地圖」來套用於附近可見之標籤。您可以將「預期附近地圖」視為該物種在位置附近是否存在的預測。
從「附近可見」到「附近預期會出現」的名稱變化旨在明確表示該標籤來自模型預測,而不是觀察紀錄之網格。請注意,這些預測並不完美。例如,墨西哥角蟬可能不會出現在加拉巴戈或古巴,儘管有預測。對於某些物種,生物分布地理模型的表現非常好,而對於其他物種,預測的誤差則非常大。我們正在進行深入理解這些模型並修正的實驗中。但正如我們下面所示,平均來說,生物分布地理模型改善了它所替代的1度網格方法,我們期望未來的生物分布地理模型版本會持續改進。
我們使用「預期附近地圖」的未調整閾值版本(譯註:原本的生物分布地理模型預測機率值,在上述的生物分布地理模型會設定一個門檻值,超過其值代表該生物預期會出現)來為電腦視覺建議加權。您可以將未調整閾值地圖視為物種出現在某位置的相對機率。
您可以在我們連結至所有約80,000種生物的分類頁面上,探索我們用於為電腦視覺建議加權的「附近預期會出現地圖」和「未調整閾值地圖」,在我們的新生物分布地理模型預測頁面上查看。
為何使用生物分布地理模型以及下一步計劃
我們從1度網格的資料轉換成生物分布地理模型,主要有四個原因:
1. 改進電腦視覺的鑑定建議
如下面的「評估生物分布地理模型」部分之詳細說明,與1度網格方法相比,生物分布地理模型提高了電腦視覺在鑑定建議上的準確性。今天發布的2.7版本,其對最相似的第一筆鑑定上的建議之準確性提高了大約4%,我們預期隨著模型方法的不斷改善和更多觀察紀錄的上傳,未來生物分布地理模型版本的準確性將繼續增加。
2. 未來方向:快速/離線地理空間資訊
生物分布地理模型參數的數量不到1度網格資料大小的2%。這意味著生物分布地理模型夠小且夠快,可以在安裝Seek上的行動裝置中運作,就像電腦視覺模型那樣。這為包括在Seek相機建議中加入地理空間資訊和在行動裝置上離線顯示分類群地圖等功能提供了可能性。我們尚未開發這些功能,但生物分布地理模型將提高其可行性。
3. 未來方向:呈現不尋常的觀察
隨著《愛自然》的增長,社群需要更好的工具來呈現可能代表誤鑑定或重要發現之不尋常觀察,例如分布範圍擴展或外來入侵種的早期偵測。
下圖顯示210萬筆的蜻蜓觀察結果,按生物分布地理模型預測的地理分布不尋常性來排序。直方圖的右側顯示了最不尋常的0.01%的觀察紀錄。我們將這223個不尋常的觀察結果傳送給蜻蜓專家@dennispaulson 進行審核。197次觀察紀錄(88%)是錯誤鑑定的(紅色條形),例如這次被誤識別為纖細絲蟌的雨池絲蟌。其餘的26次代表了一些真正不尋常的記錄(白色條形),例如從科羅拉多州的石青蜻蜓擴張範圍。
有些在白色柱狀圖中的觀察對我們的模型來說是不尋常的,但對@dennispaulson 來說並不是,例如這來自海地的高地草地蜻蜓,生物分布地理模型認為它是不尋常的。隨著更多來自低取樣率的地區之觀察紀錄和鑑定,生物分布地理模型的準確性將隨著時間而增高。
蠅類專家@zdanko以50萬筆食蚜蠅觀察紀錄來協助進行了一個類似的實驗。與蜻蜓相似,在365個最不尋常的觀察紀錄中,有267次觀察(73%)是錯誤鑑定。
我們對於相關生物分布地理模型來建立工具的潛力感到興奮,以幫助更快地揭露出這些不尋常的觀察,進而吸引專家的更多關注,以便修正錯誤鑑定並不遺漏重要的發現,例如物種範圍的擴展。
4. 未來方向:範圍大小的背景資料
從保育觀點來看,一個物種的最重要特性之一是其地理分布範圍大小。在其他條件相同的情況下,分布範圍較小的物種比範圍較大的物種更有滅絕的風險。為了優先分配稀缺的保育資源和關注,土地管理者需要工具來確定哪些物種是小範圍分布的當地特有種(在世界上其他地方都不存在的物種)。
如下面「評估生物分布地理模型」部分所述,生物分布地理模型對分布範圍區域的預測與分布範圍地圖的區域(如在分類群頁面上,某些分類群分布範圍上出現來自外部來源)具有很好的相關性。
下圖顯示了生物分布地理模型對全球10種小規模分布鳥類的範圍區域的預測。我們希望建立生物分布地理模型的相關工具,以便更容易確認哪些觀察紀錄屬於小範圍的特有物種,以幫助土地管理社群優先考慮這些保育的目標。
「附近預期會出現的地圖」在生物分布地理模型預測頁面上以粗糙的1800平方公里的解析度來呈現,因此不會公開地揭露敏感物種的精確資訊。我們持續改善《愛自然》,安全地調整敏感物種資料和精確預測,以達到保育的目標。
評估生物分布地理模型
我們透過以下方式來評估生物分布地理模型:
- 改進建議的準確性
在「預期附近會出現」子資料集中保留正確的建議
3.「預期附近會出現」地圖和分類群分布範圍之間的重疊
1. 改進建議的準確性
平均而言,透過使用1度網格對原始電腦視覺分數進行加權,最相似的第一筆鑑定建議的準確性從75%提高到83%(+8%)。相反,使用生物分布地理模型進行加權,最相似的第一筆鑑定建議的準確性提高到87%(+12%)。我們在地理和分類分組內重複了此分析,在所有案例中,生物分布地理模型的表現均優於1度網格的資料。
2. 在「預期附近會出現」子資料集中保留正確的建議
預設情況下,我們只會顯示「附近」所建議的子資料集(譯註:也就是只出現在附近的生物)。這個做法具有刪除不太可能出現於該地點出現物種之建議的優勢,但也存在刪除正確建議的風險。我們計算了召回率統計(recall statistics,譯註:即實際上樣本是真的情況下,有多少是預測正確的),測量在從生物分布地理模型和1度網格得到的附近子資料集中,正確的建議並保留之頻率。平均而言,兩種方法得到的召回率相同,均為0.94,這意味著每100次觀察,正確的結果在附近子資料集中被包含了94次。
3.「預期附近會出現」地圖和分類群分布範圍之間的重疊
為了衡量「預期附近」地圖與《愛自然》分類群頁面上顯示的分布範圍有多適配,我們進行了比較並計算了精確度和召回率統計。分類群之分布範圍也不是完全準確的,所以為了評估,我們使用了大約5,000個分類群分布範圍的子資料集,其中至少包含了該分類群中90%的觀察紀錄。
我們重複了此分析,將1度網格和生物分布地理模型與分類群分布範圍進行比較。生物分布地理模型的預測提高了精確度和召回率的平均值。F1統計量(精確度和召回率的調和平均數)對於地理模型比1度網格提高了9%。
在由均方對數誤差(Mean Logarithmic Squared Error; MLSE)測定的分類群分布範圍區域配對上,生物分布地理模型也比1度網格表現更好。
感謝你們
我們想要特別致上謝意給我們的研究合作夥伴,包括 Oisin Mac Aodha (愛丁堡大學)、Elijah Cole (加州理工學院)、Grant Van Horn (麻州大學阿默斯特分校)、Christian Lange (愛丁堡大學)、Pietro Perona (加州理工學院) 以及 @tbrooks (IUCN)。同時也感謝 Climate Change AI 2021–2022 創新基金的慷慨支持,讓這項工作得以實現。
我們對生物分布地理模型今天在在鑑定建議的準確性上所達成的進展感到很興奮,以及它為我們在未來幾個月中探索方向的潛力。感謝整個《愛自然》社群建立了所有的觀察紀錄與鑑定,這使得像生物分布地理模型這樣強大的模型訓練成為可能!