【儀表網 行業應用】2017年12月8日中央政治局就實施國家大數據戰略進行第二次集體學習時,習近平總書記強調,大數據發展日新月異,我們應該審時度勢、精心謀劃、超前布局、力爭主動,深入了解大數據發展現狀和趨勢及其對經濟社會發展的影響,分析我國大數據發展取得的成績和存在的問題。習近平總書記強調的國家大數據戰略中的一項重要內容就是生態環境大數據。生態環境大數據建設是貫徹落實習近平生態文明思想的重要措施。
黨中央、國務院高度重視生態環境監測,目前我國已建成世界領先、要素和空間全域覆蓋的生態環境監測網絡并積累了長期觀測數據,這為建立環境系統神經網絡模型奠定了強有力的基礎和保障。
神經網絡的底層算法原理及類型
2016年3月,Google AlphaGo戰勝了李世石的新聞登上熱搜,2023年2月ChatGPT 3.5正式運行、版本4及后續版本緊鑼密鼓地發布。今天各種和神經網絡相關的新奇事物不斷出現在我們身邊:人臉識別進行登錄驗證、指紋識別解鎖、語音識別、機器人、自動駕駛汽車等。深度學習、神經網絡的概念似乎在一夜之間走進我們的日常生活,人工神經網絡的最大優勢在于模式識別和預測,在環境監測中的應用將會很有前景,作為環境監測人,怎樣理解和應用這一新技術來提升我們的工作?
1949年,加拿大認知心理生理學開創者Donald Hebb發現:同一時間被激發的神經元間的聯系會被強化,這種對神經元的刺激使得神經元間的突觸強度增加的學習方法被稱為赫布型學習(Hebbian Learning),現代人工智能起源于20世紀的腦神經生理學和數學研究成果。人工神經元是機器學習的基礎和基本單元,是人工神經網絡操作基本信息的處理單元,其基本工作原理模仿了人腦腦神經元的工作模式。
輸入相當于在人腦神經元的突觸間隙完成的化學/電轉化的電信號;連接權相當于人腦神經元之間突觸的連接強度。激活函數用于控制神經元輸出振幅,將輸入加和值限制在一定的范圍內。因此,一個人工神經元可以用下式表示:
式中:
xi : 輸入信號,i=1,2…n(n維輸入);
wi : 各輸入因子的權重,i=1,2…n(n維輸入)。wi:為正值則該突觸為激活狀態,為負值則為抑制狀態;
P : 輸入信號組合器計算后的輸出;
b : 神經元偏置,或神經元內部閾值。當輸入加權和大于b時,神經元處于激活狀態,可以向下個神經元發出信號;若輸入加權和小于等于b時,神經元處于抑制狀態,不向下個神經元發出信號;
Y : 神經元輸出信號;
一個神經元能夠接收、處理和發出的信息有限,要實現模擬人腦的思維方式,也就必須模擬人腦神經系統的結構,必須把多個人工神經元結構化地連接起來,從數學的角度上看,就是建立不同的算法,并結構化連接起來,使得不同的算法之間按既定的輸入輸出接口互相傳輸數據信息,最后輸出目標信息。多個人工神經元通過連接構成的具有一定功能的結構化的網絡算法體系稱為人工神經網絡。人工神經網絡可以從不同的角度進行分類:如網絡性能角度、拓撲結構角度、學習方式(算法)、神經元的特征、連續突觸性質、適用情景等。
按學習算法,目前已有40余種神經網絡模型,常見的有反傳網絡、波耳茲曼機、適應諧振理論、自組織映射、Hopfield網絡等。以網絡結構和學習算法可分為:感知器、線性網絡、徑向基網絡、自組織神經網絡、BP神經網絡等靜態網絡,和Hopfield、Elman、非線性自動回歸時間系列網絡(NARNet)、帶外部輸入的非線性自動回歸時間系列網絡(NARXNet)、長短時記憶系統(LSTM)、時間延遲神經網絡(TimeDelayNet)、分布式延遲神經網絡(DistDelayNet)等動態遞歸網絡;除此之外還包括:Boltzmann網絡、盒中腦網絡(Brain State in a Box,BSB)、模糊神經網絡、自定義神經網絡等其它類型網絡。
深度學習是通過深度神經網絡學習樣本數據的內在規律和表示層次,這些學習過程中獲得的信息對諸如文字、圖像和聲音等數據的解釋有很大的幫助。最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據。深度神經網絡主要涉及三類方法:(1)卷積神經網絡(CNN);(2)自編碼神經網絡,包括自編碼(Auto Encoder)以及近年來受到廣泛關注的稀疏編碼兩類(Sparse Coding);(3)以多層自編碼神經網絡的方式進行預訓練,進而結合鑒別信息進一步優化神經網絡權值的深度置信網絡(DBN)。
神經網絡有三類參數:適合建模場景的神經網絡類型選定之后,要通過系統機理、建模需求、數據條件來設計輸入-輸出參數,也稱為外部參數;要根據網絡規模和避免過擬合(Overfitting)、欠擬合(Underfitting)、貝葉斯正則化(Bayesian Regularization)的等原則來設計超級參數(Hyper Parameter);神經網絡本身的權值(Weight)、閾值(Bias)通過訓練得到,稱為網絡參數。
就神經網絡內部而言,通過帶動量的最小梯度下降法等方法通過誤差傳遞不斷調整權值、閾值來得到局部最優網絡參數。就神經網絡外部而言:通過機理和主成分分析及降維來不斷優選外部參數;通過先初篩后細篩的路線來尋求全局最優網絡機構(超級參數)。
在環境預測預報中的應用
根據系統論與控制論的觀點,生態環境中各要素構成的、具有一定功能和結構的一定空間范圍可以視為一個系統。生態環境系統是典型的非線性動力學系統,系統內有物理、化學、生物、氣象及輻射等方面的變化反應及物質、能力的輸入輸出,系統的驅動力、系統輸入、輸出因子的相互作用及影響非常復雜,很多系統難以用數值模型(微分方程)來描述。人類探索自然、認知自然總是由黑箱到灰箱再到白箱。在環境科學領域也是一樣,人們認識大氣圈、水圈、生物圈、生態系統也是從無到有,從淺入深的。對于一個相對完整的系統的物質循環、遷移、轉化規律逐漸有所認識和理解,所有的認識和理解,促使人們聚焦研究環境污染物在系統中的遷移變化規律,可行、有效的技術手段之一就是建立基于神經網絡的灰箱數學模型。
1.O3濃度-氣象常規-空氣質量常規-VOCs耦合仿真預測模型
云南省生態環境監測中心基于某空氣質量背景自動監測站2年數據,以VOCs66項、歷史氣象因子5項、歷史環境空氣質量8因子小時數據作為輸入,以未來1小時O3濃度作為輸出,并對樣本數據進行主成分分析(Pricipal Component Analysis,PCA)和降維(Dimension Reduction),目的是屏蔽干擾,保留主動力,避免過擬合,使用帶外部輸入的非線性自回歸神經網絡(NARXNet)建立耦合仿真預測模型模型。
O3濃度仿真預測結果與實際監測值的相對誤差絕對值均值能穩定控制在6%以內,顯著優于WRF-CMAQ、NAQPMS數值模型的預測結果。與將79項原始監測指標作為輸入相比,直接取污染氣象學界公認的影響較大的TVOC、異戊二烯、丙烯、順-2-丁烯、苯_HC、甲苯_HC、二甲苯、其它苯系物8項因子或全部79項進行PCA和降維,均能取得較理想的網絡性能。時間延遲在5~7天網絡性能較佳,這說明了污染源與每周的工作周期具有一定的相關性。
2.O3濃度-氣象及空氣質量常規-VOCs-紫外線能量耦合仿真預測模型:利用雙變量相關性、主成分分析探討O3成因
云南省生態環境監測中心在上述模型基礎上,增加UVA、UVB、UVI、Volt 4項太陽輻射能量數據,主成分分析后,取前10項主成分作為輸入建立使用NARXNet建立耦合仿真預測模型。
O3濃度仿真預測結果與與實際監測值的相對誤差絕對值均值能穩定控制在6.4%以內。各輸入方案中,按預測誤差由小到大排序的方案為:PCA5、PCA10、PCA20、BCA10(雙變量相關系數前10項,下同)、BCA5、BCA20,說明將多重共線性指標剔除后的少量主成分作為輸入,對于網絡的訓練具有明顯的幫助,從機理上說,建立模型一定要屏蔽微小的次要動力因素,避免過擬合;PCA優于BCA,說明BCA僅考慮雙變量相關,忽略污染物之間協同效應如顆粒物-O3協同效應,將影響預測性能。網絡結構盡量簡單、輸入因子盡量少,網絡性能越好,這與提高網絡泛化能力,追求適度擬合的基本原則是相符的。
在水污染溯源中的應用
水污染溯源的方法主要有水質監測數據排查法、示蹤法、數學模型法和三維熒光溯源法。
三維熒光溯源法是目前光學分析、信息工程、人工智能算法相結合的前沿方法。在入射激發光照射下,有機化合物分子發生瞬時躍遷,之后立即返回基態,返回基態的過程是一個輻射躍遷或非輻射躍遷衰變過程,其中的輻射躍遷衰變過程伴隨著光子的發射,即產生熒光或者磷光。三維熒光儀可以以一定波長范圍發出激發光掃描水樣,同時同步檢測該水樣實時產生的各波長發射光下的熒光強度,以發射光、激發光波長分別作為橫、縱坐標,以相對熒光強度作為豎坐標可匯出二維或三維形式的熒光譜圖。地表水、生活污水和工業廢水中存在大量熒光物質混合物,理論上,污染源和受納水體水樣的三維熒光譜圖應類似,通過譜圖相似度模式識別神經網絡算法,可以計算出環境水樣與污染源的相似度,根據相似度來研判污染來源。
卷積神經網絡(Convolutional Neural Networks,ConvNet)是目前應用最多的深度學習圖像視頻識別、目標識別、語音處理、自然語言處理等領域被廣泛應用。一個典型的卷積神經網絡基本結構包含輸入層、卷積層、池化層、全連接層和輸出層5個部分。
云南省生態環境監測中心以目歸法處理后的水質三維熒光譜圖作為輸入,以溯源結果作為輸出,構建以卷積神經網絡為核心的三維熒光譜圖識別算法框架。在算法中構建了2個卷積層,并在每個卷積層后加上一個Relu激活函數層用于增加神經網絡模型的非線性,加快訓練速度,隨后構建了一個池化層用于減少數據處理量和防止過擬合,并在后接上一個全連接層,最后以Softmax分類器作為輸出層得到三維熒光譜圖識別結果。使用卷積神經網絡識別三維熒光光譜,在較為復雜的條件下仍有較高的識別正確率。
云南省生態環境監測中心對省內某高原湖泊COD構成來源進行研究性監測,采集優勢種挺水植物并制作組織液、壓濾液、腐爛降解模擬試驗浸泡液、底泥翻轉振蕩浸提液等內源水樣,以及主要入湖河流、豆腐園區污水廠等外源水樣,共制作得到48份水樣,使用日立F-2700FL Spectrophotometer型熒光
光譜儀檢測得到48組光譜數據,使用Matlab 2021a,構建并訓練深度卷積神經網絡算法模型,根據48×48共2304水樣對的相似度大小比較:內源構成中,湖水中COD主要來自底泥釋放的有機物;外源構成中:湖水中溶解性COD主要來自入湖河流。
展望
圣路易斯華盛頓大學李馳博士后使用機器學習分離人為排放和氣象條件對中國地表臭氧變化的貢獻,得到如下結論:臭氧時空變化受氣象條件,特別是地表氣溫的影響很大;Ox在NOx缺乏區隨NOx升高而上升,而在NOx飽和區轉為下降;VOC含量的增加主要影響NOx飽和區,而顆粒物含量的增加影響NOx缺乏區相對較強 等創新性結論。
大多數城鎮
污水處理廠使用活性污泥和其他工藝去除污染物(TOC,TN,TP)。每個污水系統中可能存在數以萬計的不同微生物種類。由于生物反應的復雜性、處理廠的多變,基于活性污泥過程的生物動力學的數值模型并不是特別實用,機器學習技術可以在沒有校準負擔的情況下以更高的精度預測污水處理廠中的污泥膨脹。
國外研究人員正在嘗試用深度神經網絡預測和識別內分泌干擾物(EDCs)。市場上有10萬種化學品,其中大多數缺乏毒理學數據,包括內分泌干擾物質。專注于一組有限的化學物質或僅結構相似的化合物使得我們很難將這些傳統工具應用于數以萬計未經測試的化學品。此外,由于內分泌干擾物質的分子機制復雜,一組看似結構相似的化學物質具有不同的內分泌干擾活性。這些問題凸顯了傳統數據分析的不適用性。因此,研究人員嘗試將深度神經網絡與大數據(包括各種生物、物理化學信息等)相結合來解決這些問題。
除了時間序列、空間序列預測、相關性識別、空氣污染成因分析、水污染溯源、模式識別等領域外,深度神經網絡還在噪聲頻譜數據識別及聲源反演、監測點位聚類、污染類型及機制的聚類、浮游植物識別及計數、陸生植物的識別等方面有很多成功的應用案例。
總之:由于其優異的非線性擬合及快速收斂能力,對非線性動力學系統的闡釋及無限逼近仿真能力,深度神經網絡在環境監測、環境科學與工程領域中將展現出廣闊的應用前景和巨大的價值空間。(云南省生態環境監測中心供稿)
所有評論僅代表網友意見,與本站立場無關。