高光譜分選儀結(jié)合深度森林,精準(zhǔn)識(shí)別凍害水稻種子
應(yīng)用方向:
本研究采用高光譜成像技術(shù)和深度森林(DF)模型,對(duì)不同程度霜害稻種進(jìn)行快速無(wú)損分類。通過(guò)優(yōu)化光譜數(shù)據(jù)預(yù)處理(如多元散射校正MSC)和特征提取算法(如鄰域成分分析NCA),構(gòu)建了多種分類模型,并對(duì)比了傳統(tǒng)機(jī)器學(xué)習(xí)方法(決策樹(shù)、KNN、SVM)與DF模型在小樣本數(shù)據(jù)上的表現(xiàn)。結(jié)果顯示,DF模型具有更高的分類精度和魯棒性。研究還通過(guò)可視化技術(shù)直觀展示了霜害稻種的分類結(jié)果,為農(nóng)業(yè)生產(chǎn)中的種子篩選和質(zhì)量控制提供了高效、智能化的解決方案。該方法不僅提高了霜害種子檢測(cè)精度,也為高光譜成像在精準(zhǔn)農(nóng)業(yè)中的應(yīng)用提供了重要參考。
背景:
稻種質(zhì)量直接影響農(nóng)業(yè)產(chǎn)量,但在生產(chǎn)和儲(chǔ)存過(guò)程中易受霜害、熱害、真菌感染等影響,導(dǎo)致活力下降,尤其在中國(guó)東北地區(qū),晚熟粳稻種子易受低溫霜害,降低發(fā)芽率和幼苗生長(zhǎng)速率,可能引發(fā)農(nóng)業(yè)減產(chǎn)。因此,快速、非破壞性檢測(cè)霜害種子的技術(shù)對(duì)農(nóng)業(yè)生產(chǎn)至關(guān)重要。
傳統(tǒng)檢測(cè)方法如發(fā)芽試驗(yàn)、四唑染色法雖準(zhǔn)確,但操作復(fù)雜、成本高且具破壞性,難以大規(guī)模應(yīng)用。近年來(lái),光譜成像技術(shù)因其能同時(shí)獲取光譜和圖像信息,被廣泛應(yīng)用于種子質(zhì)量檢測(cè),尤其是高光譜成像技術(shù)結(jié)合化學(xué)計(jì)量學(xué)和機(jī)器學(xué)習(xí)算法,在種子活力和霜害檢測(cè)方面取得顯著成果。
然而,深度學(xué)習(xí)模型通常需要大量樣本和復(fù)雜參數(shù)設(shè)置。為此,本文提出將高光譜成像技術(shù)與適用于小樣本數(shù)據(jù)的深度森林模型(DF)結(jié)合,用于霜害稻種分類研究。該方法建模簡(jiǎn)單,對(duì)小樣本數(shù)據(jù)具有良好魯棒性,為霜害稻種識(shí)別提供了一種高效解決方案。
實(shí)驗(yàn)設(shè)計(jì)
1.1材料與方法
本實(shí)驗(yàn)使用的水稻種子品種為“艷風(fēng)”,2018年收獲于遼寧盤(pán)錦,初始含水量13%至14%(干種子)。隨機(jī)選取1800粒種子,并人工調(diào)整含水量至30%,以研究霜凍損傷。種子被隨機(jī)分為6組,每組300粒,其中一組為對(duì)照組,未冷凍處理,其余5組在不同溫度下冷凍不同時(shí)間(見(jiàn)表1)。冷凍后,種子在25°C干燥通風(fēng)環(huán)境中放置一周,以恢復(fù)正常溫度并減少水分干擾。
在本實(shí)驗(yàn)中,選用了江蘇雙利合譜科技有限公司的“GaiaSorter”高光譜成像系統(tǒng)。該系統(tǒng)的核心組件包括均勻光源、光譜相機(jī)、計(jì)算機(jī)以及相關(guān)的控制軟件。在光譜成像儀中使用的相機(jī)是“Image-λ”系列高光譜相機(jī),其光譜范圍大約為900-1700 nm。系統(tǒng)的工作原理是將待測(cè)樣品放置在由軟件控制的電動(dòng)移動(dòng)平臺(tái)上,并采用推掃法來(lái)收集圖像。隨著電動(dòng)平臺(tái)的移動(dòng),最終獲得了包含待測(cè)樣品光譜信息和圖像信息的高光譜立方體數(shù)據(jù)。由于原始光譜數(shù)據(jù)中存在的噪聲會(huì)干擾后續(xù)的數(shù)據(jù)分析,因此本實(shí)驗(yàn)選取SG1、SNV和MSC方法對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。
圖1. 提取光譜數(shù)據(jù)的主要流程圖。
在獲取高光譜圖像之后,從每組中隨機(jī)選取50粒水稻種子,并根據(jù)國(guó)際種子檢測(cè)協(xié)會(huì)(ISTA)的規(guī)則進(jìn)行發(fā)芽測(cè)試。我們將種子浸泡在蒸餾水中12小時(shí),然后在標(biāo)準(zhǔn)發(fā)芽箱中進(jìn)行種子發(fā)芽測(cè)試,并在種子表面覆蓋濕潤(rùn)的發(fā)芽紙以在室溫25°C下遮光。發(fā)芽力(GF)和發(fā)芽率(GR)是反映種子質(zhì)量的主要指標(biāo)之一。通常情況下,具有高GR和GF的種子活力強(qiáng),而GR高但GF低的種子也可能活力低下。
原始光譜數(shù)據(jù)高維且含冗余信息,難以直觀區(qū)分樣本差異。本研究采用t-SNE方法將高維數(shù)據(jù)映射至低維,實(shí)現(xiàn)樣本可視化,并擴(kuò)大簇間距離以緩解擁擠問(wèn)題。此外,高光譜數(shù)據(jù)的冗余和共線性影響模型性能,因此使用PCA、SPA和NCA提取特征波長(zhǎng)。PCA將多個(gè)指標(biāo)轉(zhuǎn)化為少數(shù)主成分以降低維度,SPA通過(guò)前向變量選擇去除冗余信息,NCA作為度量學(xué)習(xí)算法,優(yōu)化數(shù)據(jù)的空間表示,提高模型效果。
本研究利用決策樹(shù)(DT)、K最近鄰(KNN)、支持向量機(jī)(SVM)和深度森林(DF)四種模型對(duì)水稻種子進(jìn)行分類評(píng)價(jià),確保分類的準(zhǔn)確性與泛化能力。DT通過(guò)構(gòu)建決策樹(shù)確定分類概率,并采用交叉驗(yàn)證優(yōu)化最小葉節(jié)點(diǎn)(minleaf)值。KNN依據(jù)鄰近樣本類別進(jìn)行分類,并通過(guò)自動(dòng)優(yōu)化程序確定最佳k值。SVM采用RBF核函數(shù)處理線性和非線性數(shù)據(jù),并利用網(wǎng)格搜索優(yōu)化懲罰系數(shù)(c)和核函數(shù)半徑。DF通過(guò)級(jí)聯(lián)森林結(jié)構(gòu)進(jìn)行表示學(xué)習(xí),并在驗(yàn)證集上評(píng)估性能,若無(wú)顯著提升則終止訓(xùn)練,以控制模型復(fù)雜度。
5.2.結(jié)果與討論
(1)發(fā)芽試驗(yàn)結(jié)果分析
表2顯示,不同冷凍條件下水稻種子的發(fā)芽勢(shì)(GF)、發(fā)芽率(GR)和平均芽長(zhǎng)均下降。正常種子的GF與GR一致,而霜凍傷害種子的GF低于GR。GR高且GF強(qiáng)表明幼苗出土快且整齊,GF弱則出土不均且幼苗弱。在-10°C/4小時(shí)下,GR達(dá)90%,GF僅82%,且平均芽長(zhǎng)較短,表明輕微霜凍傷害。這些種子播種后出苗不足,影響收成,因此快速無(wú)損識(shí)別霜凍傷害種子對(duì)農(nóng)業(yè)生產(chǎn)至關(guān)重要。
(2)原始光譜分析
原始光譜波長(zhǎng)范圍為900-1700 nm,但受儀器影響,前后部分噪聲較大。因此,我們選取了949.0-1638.0 nm的210個(gè)波長(zhǎng)進(jìn)行分析。圖3顯示不同冷凍條件下水稻種子的平均光譜曲線和標(biāo)準(zhǔn)差。六組種子的光譜曲線趨勢(shì)相似,但在特定波長(zhǎng)范圍內(nèi)存在顯著差異。例如,在1000.0-1300.0 nm,光譜反射率依次遞減:-25°C/20 h > -20°C/16 h > -15°C/12 h > -10°C/8 h > -10°C/4 h > 未處理,其中1300 nm處差異*明顯。1000-1100 nm主要對(duì)應(yīng)N/H伸縮的第三泛音,1100-1300 nm對(duì)應(yīng)C/H伸縮的第二泛音。隨著冷凍溫度和時(shí)間增加,種子細(xì)胞受損,淀粉結(jié)構(gòu)破壞,影響糊粉層和胚的結(jié)構(gòu),阻礙赤霉素進(jìn)入,進(jìn)而影響種子活力。因此,冷凍條件越嚴(yán)苛,細(xì)胞破壞越嚴(yán)重,使得1000-1300 nm的光譜反射率逐漸增加。
圖3. 不同冷凍條件下水稻種子的平均光譜曲線及其標(biāo)準(zhǔn)差
(3)高維光譜數(shù)據(jù)的可視化分析
本研究采用t-SNE對(duì)原始光譜數(shù)據(jù)及SG1、SNV、MSC三種預(yù)處理方法處理后的光譜數(shù)據(jù)進(jìn)行可視化,并將其降維至二維進(jìn)行分析比較。為減少t-SNE的隨機(jī)性,采用Matlab R2018b默認(rèn)參數(shù)(歐幾里得距離、Perplexity = 30、LearnRate = 500、Theta = 0.5)。
圖4展示了不同預(yù)處理方法的光譜曲線及t-SNE可視化結(jié)果。從圖4e可見(jiàn),原始光譜數(shù)據(jù)在不同冷凍條件下混合重疊,降維后特征難以區(qū)分。圖4f和4g顯示,SG1和SNV處理后仍存在大量重疊,與原始數(shù)據(jù)相比無(wú)明顯改善。而圖4h表明,經(jīng)MSC預(yù)處理的數(shù)據(jù)聚類效*顯著,6組水稻種子被清晰分類??傮w而言,MSC處理后的光譜數(shù)據(jù)優(yōu)于其他方法。
圖4. 不同預(yù)處理方法的光譜曲線:(a) 原始光譜曲線;(b) SG1處理后的光譜曲線;(c) SNV處理后的光譜曲線;(d) MSC處理后的光譜曲線。使用t-SNE可視化不同預(yù)處理方法處理的光譜數(shù)據(jù):(e) 原始光譜數(shù)據(jù);(f) SG1處理后的光譜數(shù)據(jù);(g) SNV處理后的光譜數(shù)據(jù);(h) MSC處理后的光譜數(shù)據(jù)。
(4)基于全波長(zhǎng)的建模分析
在建模前,所有樣本隨機(jī)分為校準(zhǔn)集和預(yù)測(cè)集,比例為3:1。為了選擇最佳的預(yù)處理方法和模型組合,將原始光譜數(shù)據(jù)以及經(jīng)過(guò)SG1、SNV和MSC預(yù)處理的光譜數(shù)據(jù)分別輸入到DT、KNN、SVM和DF模型中。圖5顯示了基于全波長(zhǎng)的建模分析結(jié)果??梢钥闯觯?jīng)過(guò)MSC處理的光譜數(shù)據(jù)具有最高的建模準(zhǔn)確率,均高于90%。這與t-SNE可視化的結(jié)論一致。
圖5. 基于全波長(zhǎng)建模分析的結(jié)果
(5)基于PCA、SPA和NCA的特征波長(zhǎng)選擇
為降低高維光譜數(shù)據(jù)維度并保留關(guān)鍵信息,本研究采用PCA、SPA和NCA從MSC處理后的光譜數(shù)據(jù)(210個(gè)變量)中提取特征波長(zhǎng)。前三個(gè)主成分的累積貢獻(xiàn)率達(dá)99.52%,因此選取其載荷系數(shù)提取特征波長(zhǎng)。圖6顯示了提取結(jié)果,共選出10個(gè)關(guān)鍵波長(zhǎng)(1003.7、1108.7、1115.4、1192.5、1199.2、1295.4、1302.0、1357.8、1462.0和1471.7 nm)。
圖6. 利用前三個(gè)主成分載荷曲線提取的特征波長(zhǎng)。
圖7展示了SPA選擇的特征波長(zhǎng)結(jié)果。最終,選擇了8個(gè)特征波長(zhǎng),根據(jù)它們相關(guān)性的順序排列依次是1139.0、1088.5、1000.3、1195.9、1282.2、1612.6、1367.6和1467.0 nm。這些波長(zhǎng)的相關(guān)性也顯示了它們?cè)趨^(qū)分不同霜凍程度水稻種子中的重要性。
圖7. 由SPA提取的特征波長(zhǎng)。
NCA算法用于高維數(shù)據(jù)特征選擇,通過(guò)計(jì)算變量權(quán)重篩選重要特征。圖8顯示,在210個(gè)波長(zhǎng)中,僅6個(gè)波長(zhǎng)權(quán)重顯著高于0,表明多數(shù)波長(zhǎng)對(duì)區(qū)分霜凍程度貢獻(xiàn)較小。最終選出的六個(gè)特征波長(zhǎng)依次為1030.9、1529.6、1334.9、1152.4、1047.9和1413.3 nm,它們與水稻種子化學(xué)成分密切相關(guān)。
圖8. 使用NCA獲得的每個(gè)波長(zhǎng)的權(quán)重值。
表3展示了三個(gè)特征提取算法提取的特征波長(zhǎng)??梢钥闯?,PCA和SPA提取的特征波長(zhǎng)非常接近,NCA算法提取的特征波長(zhǎng)數(shù)量最少。
(6)基于特征波長(zhǎng)的建模分析
為了評(píng)估不同模型的有效性,我們將總樣本集(6類水稻種子,每類300粒,共1800粒)分成不同樣本集,包含每類水稻種子10至300粒不等。模型的準(zhǔn)確率通過(guò)五折交叉驗(yàn)證獲得。圖9a至d展示了基于DT、KNN、SVM和DF模型在不同樣本集數(shù)量下的結(jié)果。整體上,PCA的效果不如NCA和SPA。在比較后發(fā)現(xiàn),當(dāng)樣本集較少時(shí),NCA提取的特征波長(zhǎng)建模效果優(yōu)于SPA,且隨著樣本集增加,二者的效果趨于接近。此外,NCA提取的特征波長(zhǎng)數(shù)量少于SPA,有助于提升運(yùn)算速度。因此,NCA被選為最佳特征提取算法。
圖9. 基于不同特征提取算法在不同樣本集數(shù)量下的建模結(jié)果。(a) DT模型;(b) KNN模型;(c) SVM模型;(d) DF模型。
圖10展示了基于NCA的DT、KNN、SVM和DF模型在不同樣本集數(shù)量下的建模結(jié)果。DF模型在樣本數(shù)量較少時(shí)仍保持了良好的分類效率,顯著高于本其他三個(gè)模型。同時(shí),由于DF模型在不同樣本集數(shù)量下的分類準(zhǔn)確率優(yōu)于其他三個(gè)分類模型,因此最終被選為最佳分類模型。
圖10. 基于NCA的不同樣本集數(shù)量下DT、KNN、SVM和DF模型的建模結(jié)果
(7)不同霜凍程度水稻種子的可視化
高光譜成像技術(shù)能夠同時(shí)獲取水稻種子的光譜和空間信息,從而通過(guò)可視化地圖展示不同霜凍程度的種子分類結(jié)果。研究采用逐對(duì)象方法進(jìn)行可視化,并從1500粒種子(每類250粒)中選取樣本進(jìn)行模型校準(zhǔn)和測(cè)試,剩余300粒用于可視化。基于MSC-NCA-DF模型,校準(zhǔn)時(shí)將種子隨機(jī)分為校準(zhǔn)集和預(yù)測(cè)集,并通過(guò)5折交叉驗(yàn)證驗(yàn)證模型效果。通過(guò)敏感性和特異性評(píng)估模型性能。DF模型能夠高效區(qū)分健康和不同霜凍程度受損的種子,表明其具有較高的敏感性和特異性。視覺(jué)分類結(jié)果顯示,在300粒種子中,只有2粒被誤分類,分類準(zhǔn)確率為99.33%。
圖11. 不同霜凍程度水稻種子分類結(jié)果的可視化。
結(jié)論
本研究結(jié)合DF模型和高光譜成像技術(shù),成功識(shí)別不同霜凍程度受損的水稻種子。使用三種光譜預(yù)處理方法、三種特征提取算法和三種傳統(tǒng)機(jī)器學(xué)習(xí)模型,以及一個(gè)深度學(xué)習(xí)模型進(jìn)行對(duì)比建模。經(jīng)過(guò)分析,MSC-NCA-DF模型表現(xiàn)最佳,DF模型在小樣本集中依然具備良好分類能力,最終被選為最佳模型?;谠撃P偷姆诸惤Y(jié)果可視化,展示了不同霜凍程度的水稻種子,為未來(lái)在線檢測(cè)系統(tǒng)提供參考。
推薦產(chǎn)品
“GaiaSorter”高光譜成像系統(tǒng)
作者簡(jiǎn)介
通訊作者:吉海彥,中國(guó)農(nóng)業(yè)大學(xué),博導(dǎo)
參考文獻(xiàn)
論文引用自一區(qū)文章:Liu Zhang, Heng Sun, Zhenhong Rao, Haiyan Ji. Hyperspectral imaging technology combined with deep forest model to identify frost-damaged rice seeds. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 229 (2020) 117973.
相關(guān)產(chǎn)品
免責(zé)聲明
- 凡本網(wǎng)注明“來(lái)源:化工儀器網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡(luò)有限公司-化工儀器網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來(lái)源:化工儀器網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
- 本網(wǎng)轉(zhuǎn)載并注明自其他來(lái)源(非化工儀器網(wǎng))的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品第一來(lái)源,并自負(fù)版權(quán)等法律責(zé)任。
- 如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。