從遙感數據中認識更加真實(shí)的地球,讓 AI 與人交互實(shí)現高效精準的識別和判斷。本期和鯨科技《對話(huà)數智》邀請了遙感技術(shù)專(zhuān)家、中國自然資源航空物探遙感中心的于峻川老師,分享其對于遙感數據與 AI 新技術(shù)融合應用現狀與未來(lái)的見(jiàn)解。
受邀人丨于峻川
中國自然資源航空物探遙感中心
遙感應用技術(shù)研究所
采訪(fǎng)人丨殷自強
Heywhale 和鯨科技
于峻川與殷自強在進(jìn)行交談(左:殷自強 右:于峻川)
本次訪(fǎng)談實(shí)錄,您可前往 ModelWhale 微信視頻號觀(guān)看
01 遙感數據,采集、特點(diǎn)與應用
“利用遙感數據,能夠幫助我們更好地平衡人、數字、社會(huì )、自然資源的關(guān)系”
殷自強:非常感謝于老師接受我們這一期的采訪(fǎng)。我們知道于老師的單位是自然資源部航空物探遙感中心,其實(shí)大家之前聽(tīng)說(shuō)過(guò)比較多的是衛星遙感,于老師可否給我們介紹一下航空遙感與衛星遙感之間有怎樣的區別?以及現在的遙感數據,主要的采集方式是什么?
于峻川:遙感是非直接接觸式探測和感知目標的一種技術(shù),這里面就存在著(zhù)一個(gè)“距離”的概念。通過(guò)這個(gè)方向,我們可以把它區分成地面遙感、航空遙感,和航天遙感。航空遙感獲取數據的高度一般是在幾百米到幾千米,而航天遙感可能達到幾百千米。另外二者承載的遙感平臺不一樣,像無(wú)人機、有人機、飛艇,這些都屬于航空的范疇,航天的話(huà)那就是衛星了。
航空遙感最大的特點(diǎn)在于,它的分辨率是比較高的?,F在的光學(xué)航空遙感數據可以達到厘米級的分辨率,高光譜的數據咱們國內可以做到亞米級的,達到 0.5 米這樣的水平。當然這還是要根據高度來(lái)的,如果高度再低,測量還可以更加精確,但從整體上講,航空數據的分辨率是比衛星數據要高一個(gè)數量級的。
而與此同時(shí),航空數據獲取的成本也比較高。用無(wú)人機還好,如果是有人機,那就要考慮飛機、設備的運輸、安裝、維護,以及需不需要有地面的人員做幾何、輻射的標定,如果要做應用還可能涉及到同步測量,這些都是它的成本。除此之外,還存在一些不確定的因素,比如天氣情況是否滿(mǎn)足拍攝的條件,空域是否合適等等。
從我曾參與過(guò)的幾次航空飛行的經(jīng)驗看,好像沒(méi)有一次能夠完整地、連續地把數據從頭到尾獲取完。實(shí)際的情況很有可能是人員和設備全都準備好了,天氣也很不錯,準備第二天就開(kāi)始干,但突然收到消息說(shuō)第二天有個(gè)軍事活動(dòng),空域不通過(guò),需要等兩天。結果等兩天以后再查天氣預報,下面一周又全都是陰天。一旦這些情況一發(fā)生,成本就會(huì )變得很高,本來(lái)用3、4個(gè)架次就可以獲取到的數據,最后可能要一兩個(gè)月才能收尾。另外,即使是非常理想地把數據全部獲取完了,它實(shí)際整個(gè)有效的數據面積基本上跟現在國內高分衛星數據獲取的一景的面積也差不多。所以從成本和效率的角度去考慮,衛星實(shí)際上會(huì )更有優(yōu)勢。
咱們國家衛星產(chǎn)業(yè)的發(fā)展還是很快的,載荷類(lèi)型非常多,有很多可選性。衛星的受眾本身也更多、服務(wù)面更廣,因此它的數據、服務(wù),整體的鏈條做的比較好?,F在的產(chǎn)品基本上都是按級別處理好,用戶(hù)通過(guò)選擇級別就可以直接使用了,比如大家都知道的 Google Earth Engine,就是收集了很多開(kāi)源的數據產(chǎn)品,直接把反射率上到了平臺上,用戶(hù)只要通過(guò)簡(jiǎn)單的編程就可以在很快的時(shí)間內形成自己想要的成果。
再看航空數據,因為飛機在獲取的過(guò)程中是一個(gè)抖動(dòng)的狀態(tài),所以不但要獲取數據,還要獲取飛行器的姿態(tài),因此在后面做幾何處理的時(shí)候也就要考慮更多因素。另外航空數據一般都是一個(gè)航帶一個(gè)航帶這樣獲取的,所以獲取的過(guò)程中會(huì )產(chǎn)生時(shí)間差,太陽(yáng)的高度角、輻射都發(fā)生了變化,最后要想把數據變成一個(gè)整體,可能要有一些額外的操作。整體上來(lái)講,航空數據整個(gè)機載的處理流程、體系,還沒(méi)有衛星那么完善。
但是總的來(lái)說(shuō),這兩個(gè)技術(shù)的定位是不一樣的。在可選的情況下,如果能滿(mǎn)足需求的話(huà),肯定是衛星的成本更低一點(diǎn),且現在的發(fā)展趨勢也越來(lái)越好,但有些細分場(chǎng)景沒(méi)辦法用衛星數據,為了最后要滿(mǎn)足需求,只能選擇分辨率更高、成本更高的航空數據。
殷自強:通過(guò)衛星、通過(guò)航空,通過(guò)不同的技術(shù),聽(tīng)下來(lái)感覺(jué)到目前其實(shí)我們已經(jīng)采集到了大量的遙感數據。那遙感它作為一種相對特殊的數據介質(zhì),我不知道它跟我們傳統所理解的那種圖像數據之間有什么異同呢?遙感數據它自身的特點(diǎn)是怎樣的?
于峻川:圖像數據跟遙感數據,首先肯定是有一些共同點(diǎn)的,比如說(shuō)它存儲的方式、呈現的方式都是一樣的。但實(shí)際上,它們有一些本質(zhì)的區別,那就要回歸到遙感的原理上了。
遙感實(shí)際上本質(zhì)是一種電磁波,電磁波是有波長(cháng)的,通常我們接觸到的常用的遙感的波長(cháng),包括了紫外部分、可見(jiàn)、短波、近紅外、中紅外、熱紅外、微波這些。而自然圖像,基本就是在 400-700 這個(gè)可見(jiàn)光范圍內取了 rgb,就是紅、綠、藍三個(gè)波段,它只是三個(gè)波段。所以,遙感數據可以獲取到可見(jiàn)光之外的這部分,它具備的是對人看不到的那些信息的獲取能力。
另外,遙感的波段數通常都是要大于三個(gè)波段的,多光譜有幾個(gè)到十幾個(gè)波段,高光譜,像咱們國家之前發(fā)射的那個(gè)高分五號,有300多個(gè)波段。通過(guò)更多波段,對于同一個(gè)地物,遙感就能輸出更多信息來(lái)幫助你去進(jìn)行判斷。同樣的,自然界拍攝的圖片,它是由 0-255 這種色值數字組成的,是無(wú)量綱的,而遙感數據通過(guò)一定處理后得到的包括輻亮度、反射率、發(fā)射率以及地形的高度等信息,都是有物理意義的。所以不同維度的信息也能幫助我們更好地去判斷目標。
還有一點(diǎn)不同的是,遙感數據是有地理信息的,雖然說(shuō)現在我們拍攝的照片也有一些定位信息,但這還是不太一樣。通過(guò)地理信息,我們可以將不同時(shí)間段的、不同載荷獲取的遙感數據做更好的互動(dòng)。其實(shí)現在有一種趨勢是利用互聯(lián)網(wǎng)、利用社交網(wǎng)絡(luò )去將信息社會(huì )跟自然環(huán)境聯(lián)系得更緊密一些,那這里面的一種媒介就是圖像或者視頻。而遙感數據,它本身就具備了這樣的屬性。所以利用遙感數據,能夠幫助我們更好地平衡人、數字、社會(huì )、自然資源的關(guān)系。
殷自強:所以遙感數據相比圖像數據來(lái)說(shuō),是具備了更高維度的信息。維度越高,所具備的價(jià)值肯定也就越大?,F在我們的遙感數據主要會(huì )應用在哪些方面,在解決什么樣的問(wèn)題呢?
于峻川:我們提到的高維其實(shí)是來(lái)源于三個(gè)方面,就是高空間、高時(shí)間,還有高光譜。
空間比較好理解,像傳統遙感做的解譯,它是在一個(gè)二維的平面里去確定目標是什么、定位在哪里、范圍有多大,其實(shí)是在解決“數量是多少”的問(wèn)題。
時(shí)間是說(shuō),我們可以通過(guò)長(cháng)時(shí)間序列的分析來(lái)得到目標變化和發(fā)展的規律。這其實(shí)是趨勢的分析,也可以稱(chēng)之為變量的分析。
高光譜就會(huì )稍微復雜一點(diǎn)了。前面咱們說(shuō)自然圖像是三個(gè)波段,那如果是一個(gè)從400到2500波長(cháng)范圍內的高光譜,每一個(gè)波長(cháng)都會(huì )有一個(gè)數值,把這些數值連起來(lái)的話(huà)就會(huì )成為一條曲線(xiàn)。因為不同的地物在電磁波不同波長(cháng)位置上吸收和反射的特性是不一樣的,所以在光譜曲線(xiàn)中呈現出來(lái)的形態(tài)也是不一樣的,通過(guò)這個(gè)特征就能很好地進(jìn)行區分。
舉一個(gè)例子說(shuō),同樣的綠色草地,我們不能確定它是真的還是假的,因為顏色是一樣的所以我們人也沒(méi)有辦法確定,但是當用高光譜照了以后,就能發(fā)現其中的不同了;再比如水體,它在近紅外的部分幾乎是完全吸收的,按理說(shuō)它是沒(méi)有什么特征的,所以利用這部分波段可以更好地把水體的信息提取出來(lái),而當水體里面有很多泥沙或是很多其他植物的話(huà),整個(gè)的光譜曲線(xiàn)就又會(huì )發(fā)生變化;還有森林、草地、農作物,如果遭受了蟲(chóng)災,那它在光譜上也會(huì )有一定表現,包括我們現在正在做的,地質(zhì)領(lǐng)域里礦物信息的提取,也都是這類(lèi)原理。所以高光譜這個(gè)維度,解決的是質(zhì)量的問(wèn)題。
根據前面提到的這個(gè)數量、變量,還有質(zhì)量,三方面結合基本上就可以解決自然資源領(lǐng)域里面大多數的問(wèn)題了。再隨著(zhù)遙感數據的不斷豐富,以及像人工智能這類(lèi)新方法的加入,它的作用會(huì )變得越來(lái)越大。
02 AI 的引入,現狀與優(yōu)勢
“人工智能如果考慮遙感數據的特點(diǎn),再結合一些新方法,可以發(fā)揮重要的作用?!?/p>
殷自強:剛于老師提到了現在隨著(zhù)遙感數據的積累,以及技術(shù)上新興的 AI 等相關(guān)方法的出現,我們可以用一些更好的、基礎的手段去解決更多問(wèn)題。
遙感數據是作為一種技術(shù),來(lái)處理類(lèi)似于植物、礦物等相關(guān)識別的問(wèn)題,那 AI 它在遙感領(lǐng)域中研究與應用的現狀又是怎樣的?
于峻川:我記得大概從2012年開(kāi)始,人工智能興起了以后就一直是在 CV 領(lǐng)域里面迭代,直到2015年才開(kāi)始逐步地進(jìn)入到遙感領(lǐng)域。它的發(fā)展我認為是可以分為幾個(gè)階段的。
開(kāi)始的時(shí)候大家可能認為這個(gè)技術(shù)只是一個(gè)熱點(diǎn)而已,很快就會(huì )過(guò)去,所以是很多人是在旁觀(guān),后面在做一些艦船的識別、建筑物的識別,逐漸看到效果了,它又開(kāi)始被很多人追捧。這是最有爭議的階段,有些人認為人工智能非常厲害,好像什么都能做,也有些人非常抵觸。然后一直到近兩年,它實(shí)際是普遍地被大眾所接受了,也逐漸地深入到遙感各個(gè)細分的行業(yè)里面了?,F在有兩個(gè)趨勢是比較明確的,一個(gè)是它正逐漸地在各個(gè)細分領(lǐng)域迭代、深化,這是縱向的發(fā)展;另一個(gè)是它正在跟其他的交叉學(xué)科不斷融合,這是橫向的發(fā)展。
從我工作的角度來(lái)說(shuō),我認為 AI 技術(shù)最主要有兩方面的價(jià)值吧。一個(gè)是它可以替代一些傳統的、重復性的工作。舉個(gè)例子,像我們航遙中心之前也是會(huì )接收遙感數據,這個(gè)量還挺大的,每天有幾百景,當時(shí)用傳統的方法很難把云給準確地檢測出來(lái),所以主要是靠人工來(lái)做,工作量非常大。后來(lái)有一個(gè)機會(huì ),我們做了一個(gè)針對高分五衛星的項目,利用人工智能技術(shù)實(shí)現了云的快速檢測,只需要輸入 rgb 的信息就可以準確地判斷出來(lái),并且還能跟易混淆的地物進(jìn)行區分,包括冰川等信息都可以區分出來(lái)。另外,數據本身存在的缺失、噪聲,包括無(wú)效的數據,也可以通過(guò)分類(lèi)的方式剔除掉。因此,利用人工智能,我們是做了一個(gè)比較好的盡可能自動(dòng)化的質(zhì)檢系統,這是它起的一個(gè)很主要的作用。
另一個(gè)方面,我認為人工智能現在可以解決一部分我們人的識別認知的問(wèn)題。比如說(shuō)我們現在做的一個(gè)任務(wù)是在 InSAR 形變的相位數據中找跟地質(zhì)災害相關(guān)的形變特征,這個(gè)特征在呈現上其實(shí)跟那種地面沉降造成的特征是非常相似的,包括數據里面還有一些其他噪聲的干擾,所以從數值上很難用傳統方法把它剔除掉,但是又要去區分它跟其他類(lèi)型的異常的差異,這里我們也引入了人工智能的方法來(lái)幫助我們去做識別和判斷。
實(shí)際上我們覺(jué)得,人工智能如果能考慮到遙感數據的特點(diǎn),再結合一些新的方法,可以發(fā)揮很重要的作用。
殷自強:我聽(tīng)說(shuō)于老師前兩周也出差去野外驗證 AI 識別相關(guān)的最后的結果,能給我們分享一下那個(gè)項目的經(jīng)歷嗎?
于峻川:我們這個(gè)項目是地質(zhì)災害隱患綜合遙感識別,一方面通過(guò)光學(xué)數據去識別出區域內滑坡的形態(tài),另一方面通過(guò)人工智能技術(shù)做承災體的一些道路、水體的識別,然后用我剛才提到的 InSAR 數據找到隱患的目標,這兩個(gè)數據相結合能大致地把這個(gè)區域上有可能的目標給找到,最后再結合專(zhuān)家知識把最終的隱患提取出來(lái)。這個(gè)過(guò)程中,我們去野外做的事情就是去驗證我們提取的結果對不對。
殷自強:最后驗證效果怎么樣?
于峻川:驗證效果我們覺(jué)得還是非常不錯的,但是也發(fā)現了一些需要改進(jìn)的點(diǎn)。一方面是針對特別小的目標,我們的算法還是有忽略的情況;另外有一部分它并不是目標,就是容易錯的這些,我們可能后續還需要通過(guò)增加一些困難樣本把它更好地區分。但是整體上效果我們還是滿(mǎn)意的,覺(jué)得是有潛力的。
03 AI 的引入,挑戰與融合
“聚焦到要識別的目標,采用的方法也要從目標和場(chǎng)景的特點(diǎn)去出發(fā)”
殷自強:通過(guò)于老師的講述我們可以感受到現在 AI 它并不只是停留在 paper 層面,停留在實(shí)驗室層面,而是真的已經(jīng)在去解決一些實(shí)際的問(wèn)題了。尤其是像于老師講的地質(zhì)災害相關(guān)的問(wèn)題,會(huì )讓我們感覺(jué)說(shuō)在未來(lái) AI 一定會(huì )對整個(gè)民生起到更大的價(jià)值。
那從另一個(gè)角度看,之前像地質(zhì)調查其實(shí)已經(jīng)有許多的方法在進(jìn)行了,隨著(zhù) AI 新方法的引入,它會(huì )對我們現有的工作流和基礎設施帶來(lái)什么改變嗎?這方面想請于老師來(lái)給我們分享一下。
于峻川:確實(shí)是有很大改變的。我們以前處理遙感數據是利用 ENVI-IDL 通過(guò)編程來(lái)處理,但它其實(shí)對計算資源的利用率并不是很高,后面我們的分析方法有了 GPU 之后就有所改善了,可以提高它的效率,但也是遇到了一些問(wèn)題。
我們開(kāi)始用的是單機單卡和單機多卡,很快就滿(mǎn)了就沒(méi)法用了,就又采用了集群的方式,但是集群又帶來(lái)了新的問(wèn)題。我們的需求是希望每個(gè)人都能夠有自己的實(shí)踐環(huán)境,但針對一些比較大的問(wèn)題又能把所有的計算資源利用起來(lái)解決這個(gè)問(wèn)題,所以我們就需要有一個(gè)平臺來(lái)幫我們把存儲和計算資源給整合起來(lái)。
另外我們現在的數據分析基本上都是用 python 在做,那么原來(lái)的那套工作流就可能涉及到遷移的問(wèn)題,如果都遷移到 python 平臺肯定是可以跟深度學(xué)習更好地融合,但是這就提出了一個(gè)新的要求,就是怎么去做模型的管理、數據的管理、任務(wù)的管理。
另一個(gè)方面是,我們研究的過(guò)程會(huì )做很多實(shí)驗,這里面涉及到了不同數據的組合、模型的組合,還有調參。在實(shí)際應用中,我們覺(jué)得有一個(gè)點(diǎn)非常麻煩,就是我需要一直盯著(zhù)它看,這個(gè)實(shí)驗跑完了之后再跑下一個(gè),就需要有人盯著(zhù),另外實(shí)驗結果怎么樣也還是得去查看,所以實(shí)驗多了之后這個(gè)過(guò)程就顯得非常繁瑣。
我們理想的狀態(tài)是我先把數據、模型、參數在前面先定好,然后通過(guò)一個(gè)平臺來(lái)執行離線(xiàn)的任務(wù),每執行完一個(gè)之后可以郵件通知我這個(gè)任務(wù)已經(jīng)算完了,并結果也附上去,當所有實(shí)驗都跑完了之后,再發(fā)一個(gè)對比的報告給我,這樣就會(huì )輕松很多。
所以說(shuō)我們面臨的主要問(wèn)題,其實(shí)一個(gè)是計算的壓力,雖然算力現在是滿(mǎn)足了,但是怎么能把資源更好地整合起來(lái),是這個(gè)壓力;另外一個(gè)呢就是隨著(zhù)新技術(shù)的到來(lái),我們整個(gè)工作流可能是有變化的,如何去搭建工作流,這是一個(gè)問(wèn)題。
我也嘗試了很多云計算平臺,綜合下來(lái)我發(fā)現咱們和鯨的 ModelWhale 在這里面確實(shí)是比較優(yōu)秀的,基本上能夠解決我上面提到的大部分的問(wèn)題,包括在線(xiàn)的 VScode 功能,還有和鯨社區,環(huán)境都非常不錯,所以也是希望更多這個(gè)從事遙感的研究者能夠把咱們這個(gè)平臺給用起來(lái)吧。
殷自強:非常感謝于老師的認可,我們也是一直希望能夠幫助我們的科研人員專(zhuān)注于自己的研究工作,在大家引入了 AI 相關(guān)的新方法后,可以通過(guò)我們平臺去解決這種計算問(wèn)題、存儲問(wèn)題、整個(gè)模型全生命周期的管理問(wèn)題等等。我們相信對于領(lǐng)域 knowhow ,對于整個(gè)過(guò)程的探索,最重要的這些方面的時(shí)間才是科研人員真正需要去 involve 進(jìn)去的。
那剛才咱們講的主要是工作流相關(guān)的問(wèn)題,實(shí)際真正在去用那些 AI 算法的時(shí)候,在遙感領(lǐng)域它的適用性又如何呢?以及現在主要在用的是哪些類(lèi)型的算法,于老師能否給我們講解一下。
于峻川:實(shí)際上現在 CV 里面用到的算法在遙感領(lǐng)域基本上也都用得到,包括遙感里面的目標檢測、語(yǔ)義分割、變化檢測,還有異常檢測,基本上都會(huì )涉及到,就像我前面說(shuō)的,它已經(jīng)深入到了遙感的各個(gè)方面。但是對于那些跟 CV 里面的自然圖像更相近案例,效果會(huì )更好一點(diǎn),比如說(shuō)人臉識別、艦船識別,它們都符合一個(gè)特點(diǎn),就是目標判斷的規則是非常明確的,訓練樣本也比較多,變化不會(huì )特別大。只要符合這個(gè)特點(diǎn),我們就認為它做出來(lái)的效果應該是比較不錯的。
但是我們前面也提到了,遙感它有自己的特點(diǎn),所以在 CV 領(lǐng)域里面迭代出來(lái)的模型,包括得到的一些結論,有些在遙感里就不一定正確,這是需要注意的。另外遙感畢竟是一門(mén)技術(shù),最后是要應用的,那么在應用場(chǎng)景里可能就需要額外地去想更多解決方案,比如說(shuō)道路提取中的聯(lián)通性的問(wèn)題、變化檢測中的建筑物遮擋的問(wèn)題,都需要思考更多方案來(lái)解決。
現在有很多研究是直接把 CV 領(lǐng)域里原有的一些模型方法遷移過(guò)來(lái),當然這也是一個(gè)必經(jīng)的階段,但是我覺(jué)得往后可能有更多關(guān)于融合遙感的研究可以開(kāi)展。
一方面遙感在應用領(lǐng)域的標簽其實(shí)不是特別好獲取,剛才提到的那個(gè)云檢測是一個(gè)特例,有些比較專(zhuān)業(yè)的場(chǎng)景,本身那個(gè)標簽數據獲取就比較困難,因此它是一個(gè)小樣本的問(wèn)題。那在解決這種小樣本問(wèn)題的時(shí)候,所用到的骨干網(wǎng)絡(luò )如果太重的話(huà),可能就會(huì )導致過(guò)擬合,所以就需要多去調試、多去想一些輕量化的網(wǎng)絡(luò )來(lái)設計。
其次,我們知道 CV 領(lǐng)域很多都是采用模型初始化的方法,用 ImageNet 做初始化,但是遙感的波段多,波段數也不一致,就可能用不了。我在想我們能不能做一個(gè)遙感領(lǐng)域的 ImageNet ,如果有這個(gè)的話(huà)可能對后邊的研究有很大幫助,因為目前的狀態(tài)大家都是不同領(lǐng)域自己弄自己的,缺乏一個(gè)統一的、大的數據集。
另外,CV 里面常用的數據增強的方法其實(shí)對于遙感數據來(lái)說(shuō)很多都是沒(méi)有太好效果的。遙感數據里面的變化是由什么引起的呢?一方面是時(shí)間,時(shí)相不同,輻射的條件產(chǎn)生了變化會(huì )造成影響;另一方面是空間,比如同樣一個(gè)目標,現在的背景是草地,回頭也可能換成是林地或者野外的場(chǎng)景。能不能通過(guò)這些角度去設計一些新的數據增強的方法,也是一個(gè)值得研究的問(wèn)題。
其他還包括現有 CV 模型里,因為它通常的數據只有三個(gè)波段,所以對于遙感多光譜高光譜信息里面光譜的連續性也沒(méi)有考慮到;還有多源的遙感數據如何用深度學(xué)習進(jìn)行數據的融合;還有最重要的一點(diǎn),現有的這人工智能的技術(shù),怎么與傳統的方法、一些物理模型相結合,這是未來(lái)非常值得發(fā)展的點(diǎn)。
總體來(lái)看,隨著(zhù)人工智能在行業(yè)里應用得逐漸深入,它面臨的問(wèn)題實(shí)際上是越來(lái)越復雜的,肯定不是像我們最開(kāi)始做的水的提取、艦船的識別這種。很多時(shí)候給我們提出來(lái)的問(wèn)題是寬泛的、是模糊的,我覺(jué)得更重要的是對場(chǎng)景的理解,要去聚焦到你要識別的目標,然后采用的方法也要從目標和場(chǎng)景的特點(diǎn)去出發(fā),我認為更重要的是這樣的一個(gè)過(guò)程。
殷自強:理解。但是要對傳統的場(chǎng)景去做更好的理解,也就是說(shuō)在具體問(wèn)題中設計相關(guān)模型,最好是我們以前就在研究遙感的這批人能夠自己再去具備 AI 相關(guān)的知識,那像這類(lèi)復合型人才的培養,目前現狀是什么樣子的呢?
于峻川:你說(shuō)的非常對,表面看我們搞人工智能的,好像只要你給我提供行業(yè)的數據我就能去解決問(wèn)題,但其實(shí)深入之后并不是這樣的。
為什么要復合型的人才?他要了解行業(yè)里的核心需求是什么、傳統的工作鏈路是怎樣的,然后才能知道里面哪些步驟是可以用人工智能優(yōu)化的。另外,采用的優(yōu)化方法是否可行,這也很復雜。目前我們的復合型人才,其實(shí)絕大多數都還是在實(shí)踐中培養起來(lái)的。
不過(guò)我發(fā)現近些年的研究生,好像都能夠比較主動(dòng)地去學(xué)習這方面的知識了,比如說(shuō) python 語(yǔ)言等等,這是非常好的一面。像我前些年招的學(xué)生,一般我都是從編程開(kāi)始教,還有遙感的知識、人工智能的知識,這個(gè)過(guò)程就有點(diǎn)太長(cháng)了。后面我想了一個(gè)辦法,在 github 上開(kāi)了一個(gè)課程,然后根據項目的需求設置一些內容,包括布置一些簡(jiǎn)單的任務(wù),那么學(xué)生只要把這個(gè)課程學(xué)完,基本上就能把模型、遙感的整個(gè)流程熟悉一遍了。在他學(xué)完之后,再讓他根據自己的認識去豐富這個(gè)項目,這樣來(lái)形成一個(gè)良性的循環(huán)。
04 多維協(xié)同,現狀、核心與期待
“希望這個(gè)領(lǐng)域的從業(yè)者既要有信心,又要克制”
殷自強:這是一種實(shí)踐性學(xué)習的方法。那剛其實(shí)我們最早聊的時(shí)候有說(shuō)到遙感已經(jīng)滲透到各個(gè)領(lǐng)域中去解決很多相關(guān)的應用問(wèn)題了,所以現在像跨學(xué)科合作,以及數據共享方面的現狀是如何的呢?
于峻川:我覺(jué)得從意愿上來(lái)說(shuō),大家是非常想要合作的,這個(gè)沒(méi)有任何問(wèn)題。另外在政策上,包括可以看到一些項目的指南里,也不僅僅是要求你去做技術(shù)的跨領(lǐng)域融合,還強調組織上的產(chǎn)學(xué)研一體化,所以從政策上來(lái)說(shuō),也是非常支持的。
那么從市場(chǎng)的角度來(lái)說(shuō),我認為用單一技術(shù)來(lái)解決問(wèn)題的,是已經(jīng)經(jīng)過(guò)充分競爭,市場(chǎng)格局比較穩定了,所以有潛力的主要還是在跨學(xué)科領(lǐng)域里面。像目前我們正在做的重點(diǎn)研發(fā)計劃的項目,其實(shí)就是一個(gè)非常典型的跨學(xué)科案例,這里面涉及到了地質(zhì)這塊做理論研究的、涉及到了指標體系的構建、涉及到用 InSAR 數據來(lái)解決問(wèn)題、涉及到光學(xué)的數據、機載LiDAR,然后還包括了系統建設的方方面面。只有把這一個(gè)整體給做下來(lái)了,才能滿(mǎn)足落地應用的需求。
那這些都是跨學(xué)科合作好的方面,但是在數據共享這塊我覺(jué)得還是有很多可以提升的空間。
首先我們現在沒(méi)有一個(gè)比較好的政策,其次沒(méi)有一個(gè)能夠人人都可以使用的數據平臺,第三點(diǎn)我覺(jué)得也是最重要的一點(diǎn),就是我們現在缺少這種共享開(kāi)放的環(huán)境,很多人都不認可這個(gè)價(jià)值?,F在互聯(lián)網(wǎng)上大家都在倡導知識付費,但是知識付費了以后就越來(lái)越少的人愿意去免費地、主動(dòng)地共享自己的數據和成果了。我也不知道是不是因為這個(gè)原因,感覺(jué)現在參加一些會(huì )議,看到的很多都是關(guān)于自己成果的宣傳,中間的技術(shù)細節反而很少能夠聽(tīng)到了。
所以我認為無(wú)論是模型也好還是數據也好,無(wú)論它技術(shù)指標有多高,這都只是一個(gè)方面,真正能夠使它得到認可的應該是看有多少人去使用它,并給出正面的評價(jià)。我非常希望無(wú)論是衛星數據也好,還是行業(yè)里面的數據也好,都能夠盡可能地去開(kāi)放。
殷自強:是的,我非常贊同于老師這個(gè)觀(guān)點(diǎn),像在算法層面我們也一直說(shuō)算法是需要被應用才有價(jià)值的。那目前在遙感領(lǐng)域我們這些 AI 算法業(yè)務(wù)化的現狀又是怎樣的呢?
于峻川:人工智能在遙感領(lǐng)域的應用,我覺(jué)得是處在一個(gè)磨合期。某些方面用了之后感覺(jué)效果不錯的,就是已經(jīng)基本具備了業(yè)務(wù)化的基礎了;而另一些,或者說(shuō)大多數情況下,它其實(shí)還是沒(méi)有辦法去取代傳統的工作模式,更多的是在原有的業(yè)務(wù)鏈條里面取代其中的一部分。
但是最核心的,還是在于人。新的技術(shù)手段和傳統的業(yè)務(wù)鏈條之間,需要經(jīng)過(guò)一個(gè)迭代的過(guò)程去逐步地磨合,這個(gè)過(guò)程可能會(huì )持續很長(cháng)時(shí)間,到最后形成一種人機智能交互的狀態(tài),我認為這可能是這個(gè)技術(shù)最后的落點(diǎn)。
那么我們?yōu)榱烁斓厝ゼ铀龠@個(gè)產(chǎn)業(yè)化的過(guò)程,就像前面提到的這幾個(gè)方面一樣,比如我們需要去培養更多跨領(lǐng)域的人才,我們希望像和鯨這樣比較優(yōu)秀的公司能夠去開(kāi)發(fā)一些面向業(yè)務(wù)的系統平臺,還希望我們的數據,遙感數據也好、行業(yè)數據也好,都要更加開(kāi)放。
另外還有一個(gè)比較重要的方面是,我認為大家對于人工智能技術(shù)要有一個(gè)客觀(guān)的認識。它只是一個(gè)算法,只是一個(gè)解決途徑。如果大家對它的期待過(guò)高,而短期又沒(méi)有看到效果,那會(huì )對整個(gè)業(yè)務(wù)化造成很大的困難。所以我希望這個(gè)領(lǐng)域的從業(yè)者既要有信心,又要克制,踏踏實(shí)實(shí)地把自己的工作或者技術(shù)做到落地,才能夠真正推進(jìn)業(yè)務(wù)化的發(fā)展。
殷自強. 述
通過(guò)今天的訪(fǎng)談,我們可以看到遙感數據是蘊含著(zhù)巨大價(jià)值的?,F在許多新的數據科學(xué)方法的成熟,尤其是 AI 技術(shù)的涌現,是在加速遙感數據的釋放,而在這個(gè)價(jià)值釋放過(guò)程中關(guān)鍵落腳點(diǎn)還是在人本身,需要以人為主體對這些不同的知識進(jìn)行融合。
我們需要創(chuàng )建一個(gè)良好的環(huán)境與平臺去改善研究者對不同知識的認知以及對新型協(xié)作關(guān)系的認知,這些認知的改善才能從真正意義上利用好現在的新興技術(shù),促進(jìn)整個(gè)遙感數據的挖掘與應用。
查看訪(fǎng)談實(shí)錄、了解更多其他領(lǐng)域對話(huà),歡迎關(guān)注“和鯨”微信公眾號。
ModelWhale 是和鯨科技旗下的數據科學(xué)協(xié)同平臺,將計算基礎設施、模型開(kāi)發(fā)環(huán)境和團隊管理環(huán)境進(jìn)行了深度的融合,提供了高度集成的能力和高度友好的體驗,顯著(zhù)提高團隊用數據、建模型、做業(yè)務(wù)的工作效率。