一、數(shù)據(jù)的產(chǎn)生
地質(zhì)調(diào)查是人們對地球表層有目的的探測與探索。從數(shù)據(jù)角度看,地質(zhì)調(diào)查以多來源、多模態(tài)數(shù)據(jù)展現(xiàn)地球表層現(xiàn)狀與發(fā)展過程。從系統(tǒng)角度看,地質(zhì)調(diào)查是參與人、數(shù)據(jù)處理機、地球構(gòu)成的“人-機-地”系統(tǒng)。地質(zhì)調(diào)查數(shù)據(jù)的產(chǎn)生情況如表1所示。其中網(wǎng)絡信息與管理信息來自人機交互系統(tǒng),地球信息來自機地交互系統(tǒng)和人地交互系統(tǒng)。
地質(zhì)調(diào)查數(shù)據(jù)產(chǎn)生的位置與時間表現(xiàn)出整體的規(guī)律性和局部的隨機性。地質(zhì)調(diào)查不但產(chǎn)生地質(zhì)觀測與探測數(shù)據(jù),還產(chǎn)生服務、管理及其參與人數(shù)據(jù),表現(xiàn)出確定性與不確定性交織的復雜狀態(tài)。
二、基本認識
地質(zhì)調(diào)查大數(shù)據(jù)是地質(zhì)調(diào)查工作和信息科學技術(shù)發(fā)展、融合到一定程度的結(jié)果。源動力來自于2個方面:①地質(zhì)調(diào)查業(yè)務不斷調(diào)整拓展,大量新型技術(shù)方法的應用,數(shù)據(jù)共識基本形成;②地質(zhì)調(diào)查信息化服務需求日漸增強,亟需從獨占走向共享、從粗放走向精細。
地質(zhì)調(diào)查大數(shù)據(jù)試圖解決以下3類問題:
(1)過去計劃經(jīng)濟體制下,地質(zhì)信息資料分割保存,形成信息孤島,數(shù)據(jù)信息順暢流動困難,信息與數(shù)據(jù)共享問題一直是制約地質(zhì)調(diào)查發(fā)展的瓶頸。
(2)在以往地質(zhì)調(diào)查工作中,存在一些與數(shù)據(jù)和計算相關(guān)的地質(zhì)問題,由于當時信息技術(shù)條件的限制,沒有得到解決,或者解決效率、精度不能令人滿意。這一類問題普遍存在于地質(zhì)調(diào)查具體工作中。
(3)地質(zhì)調(diào)查信息化服務產(chǎn)品類型不足,生產(chǎn)周期偏長,需求響應欠準確、欠及時。這一類問題已經(jīng)逐漸成為地質(zhì)調(diào)查工作的焦點問題。
地質(zhì)調(diào)查大數(shù)據(jù)是一個三元組<Ω,fΩ,Rf>,Ω是一個巨數(shù)據(jù)集,fΩ是定義在Ω上的處理技術(shù)方法集,Rf是fΩ上的關(guān)聯(lián)關(guān)系。通常,巨數(shù)據(jù)集Ω的計數(shù)測度只增不減,包含地質(zhì)調(diào)查產(chǎn)生的數(shù)據(jù)。處理技術(shù)方法集fΩ的操作對象是地質(zhì)調(diào)查產(chǎn)生的數(shù)據(jù),操作基礎是信息技術(shù),尤其是新一代信息技術(shù),是地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)的核心元素。關(guān)聯(lián)關(guān)系Rf定義解決地質(zhì)調(diào)查問題的思路邏輯,體現(xiàn)地質(zhì)調(diào)查大數(shù)據(jù)的功用與質(zhì)量。
地質(zhì)調(diào)查大數(shù)據(jù)是“用”出來的,應從地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)研究與開發(fā)起步,解決技術(shù)應用中的具體問題。當應用達到相當?shù)膹V度、深度后,一些有關(guān)地質(zhì)調(diào)查大數(shù)據(jù)的共性科學問題會浮現(xiàn)或抽象出來,這時就是在更高層面上解決問題的時刻了。
三、地質(zhì)調(diào)查大數(shù)據(jù)處理的技術(shù)問題
結(jié)合地質(zhì)調(diào)查數(shù)據(jù)處理一般流程和大數(shù)據(jù)處理技術(shù)的特殊性,把地質(zhì)調(diào)查大數(shù)據(jù)處理主要技術(shù)問題分為采集與傳輸、存儲與管理、計算模式與系統(tǒng)、分析與挖掘、可視分析、隱私與安全6個方面。
(1)采集與傳輸對應地質(zhì)調(diào)查數(shù)據(jù)的產(chǎn)生,地質(zhì)調(diào)查大數(shù)據(jù)外延顯然更大,采集對象更加全面地覆蓋地質(zhì)調(diào)查工作。同時,通過實時或準實時數(shù)據(jù)通信獲取地質(zhì)調(diào)查數(shù)據(jù),為達到地質(zhì)調(diào)查工作服務目標提供基礎。
地質(zhì)調(diào)查大數(shù)據(jù)采集與傳輸?shù)幕灸繕耸菓?、盡收、速收。
地質(zhì)調(diào)查大數(shù)據(jù)采集與傳輸技術(shù)多樣,也相對成熟,主要問題在于技術(shù)集成與產(chǎn)品化設計生產(chǎn)方面。地質(zhì)調(diào)查大數(shù)據(jù)采集與傳輸技術(shù)及主要問題如表2所示。
(2)存儲與管理地質(zhì)調(diào)查工作中,不同類型的應用對存儲系統(tǒng)的性能、可靠性等指標有不同的要求,這在存儲與管理中并不是新問題,但地質(zhì)調(diào)查大數(shù)據(jù)的大體量、高復雜度放大了達到這些技術(shù)指標的難度,導致“存儲墻”問題越來越嚴重。
地質(zhì)調(diào)查數(shù)據(jù)處理應用中存在2個突出的問題:①數(shù)據(jù)體量增加到一定程度后,系統(tǒng)停止運轉(zhuǎn);②讀寫外部存儲碎片數(shù)據(jù)時,系統(tǒng)效率極低。
這2個問題首先與地質(zhì)調(diào)查數(shù)據(jù)處理使用的計算機存儲硬件有直接關(guān)系。當前,地質(zhì)調(diào)查數(shù)據(jù)處理中使用的內(nèi)部存儲硬件主要是SRAM/ DRAM工藝的,外部存儲硬件主要是磁盤。SRAM 工藝存儲密度限制片上存儲容量增長,SRAM/ DRAM工藝高靜態(tài)功耗阻礙存儲層次發(fā)展,SRAM/DRAM 工藝對粒子和射線撞擊產(chǎn)生的軟錯誤問題沒有抵抗能力,糾錯電路限制存儲容量增加并引起功耗[1].磁盤是計算機體系結(jié)構(gòu)中唯一還在使用的機械單元,與其他電子存儲單元在訪問效率、延遲等指標上存在量級上的差距,如表 3 所示[2].上述2個問題與地質(zhì)調(diào)查數(shù)據(jù)處理使用的軟件體系也有關(guān)系。地質(zhì)調(diào)查應用主要的存儲與管理軟件是文件系統(tǒng)與數(shù)據(jù)庫,當前,地質(zhì)調(diào)查數(shù)據(jù)存儲與管理整體設計不明確,絕大部分應用沒有進行針對性較強的存儲與管理設計優(yōu)化,造成整體效率與具體應用效率都有待提高。地質(zhì)調(diào)查大數(shù)據(jù)存儲與管理的基本目標是軟硬件優(yōu)化升級,大幅提升效率。
地質(zhì)調(diào)查大數(shù)據(jù)的存儲與管理技術(shù)與當前使用的技術(shù)有較大的區(qū)別,內(nèi)容更豐富,結(jié)構(gòu)也更復雜,但效率普遍提高,有些技術(shù)能夠達到量級上的提高。地質(zhì)調(diào)查大數(shù)據(jù)的存儲與管理技術(shù)。
(3)計算模式與系統(tǒng)計算模式在以往地質(zhì)調(diào)查數(shù)據(jù)處理中很少提及,但計算模式是地質(zhì)調(diào)查大數(shù)據(jù)處理的核心問題之一。所謂地質(zhì)調(diào)查大數(shù)據(jù)計算模式,就是根據(jù)地質(zhì)調(diào)查大數(shù)據(jù)的數(shù)據(jù)特征和計算特征,從多樣性的地質(zhì)調(diào)查大數(shù)據(jù)計算問題和需求中提煉并建立抽象或模型。在地質(zhì)調(diào)查工作中,與數(shù)據(jù)計算有關(guān)的業(yè)務非常多,業(yè)務目標不同,對數(shù)據(jù)計算響應的時限要求也不同,操作的數(shù)據(jù)不同,數(shù)據(jù)的計算方式就不同,因而需要甄別不同計算模式,分類分析地質(zhì)調(diào)查大數(shù)據(jù)處理中的計算模式。地質(zhì)調(diào)查大數(shù)據(jù)計算模式主要類型與特點如表5所示。
地質(zhì)調(diào)查大數(shù)據(jù)處理的大部分對象是空間數(shù)據(jù),關(guān)聯(lián)關(guān)系復雜,當前主流的批處理計算難以從根本上解決可行性與效率問題;內(nèi)存計算[3]在計算機體系結(jié)構(gòu)層面解決地質(zhì)調(diào)查大數(shù)據(jù)處理的問題,具有廣譜性,可以很容易地與其他計算模式結(jié)合,形成具有優(yōu)異計算性能的應用系統(tǒng);隨著內(nèi)存價格的不斷下降和新型非易失性存儲器的發(fā)明,服務器可配置的內(nèi)存容量不斷提高,采用內(nèi)存計算完成高速的地質(zhì)調(diào)查大數(shù)據(jù)處理有了現(xiàn)實的可能性。內(nèi)存計算是地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)發(fā)展的重要趨勢。
總體上看,地質(zhì)調(diào)查大數(shù)據(jù)處理需要面向?qū)嶋H工作,提供多種計算模式的服務。
(4)分析與挖掘地質(zhì)數(shù)據(jù)定量分析一直是地質(zhì)調(diào)查重要的工作內(nèi)容,但趙鵬大[4]認為,目前地球科學的分析和可視化方法已經(jīng)遠遠落后于創(chuàng)造數(shù)據(jù)的能力。地質(zhì)調(diào)查大數(shù)據(jù)分析與挖掘技術(shù)首先要解決的問題是地質(zhì)調(diào)查工作區(qū)多來源、多模態(tài)、多時態(tài)數(shù)據(jù)的相關(guān)性和模式分析,這樣的分析可以克服個體的波動性,發(fā)現(xiàn)更多可靠的、隱藏的模式和知識。地質(zhì)調(diào)查大數(shù)據(jù)分析與挖掘的技術(shù)問題還表現(xiàn)在以下4個方面:
第一,以往地質(zhì)調(diào)查數(shù)據(jù)分析的一個重要方法是采樣,當數(shù)據(jù)體量比較大時,可以通過采樣技術(shù)把數(shù)據(jù)規(guī)模變小[5].很顯然,在很多地質(zhì)問題中,采樣意味著信息的丟失。如果不運用采樣技術(shù),考慮對地質(zhì)調(diào)查大數(shù)據(jù)全集進行分析,意味著需要分析的數(shù)據(jù)量急劇膨脹與增長,其面臨的技術(shù)問題就是體量巨大的數(shù)據(jù)如何分析。
第二,以往地質(zhì)調(diào)查數(shù)據(jù)分析方法集中于線性空間中的統(tǒng)計方法,以及一些初級的非線性方法,在小樣本上運用這些方法獲取局域的地質(zhì)特征。當在地質(zhì)調(diào)查大數(shù)據(jù)上運用這些方法時,令人不安的結(jié)果往往是方法收斂早于數(shù)據(jù)規(guī)模波動,有必要針對地質(zhì)調(diào)查大數(shù)據(jù)的一些方法進行改造,或者提出新的方法,這是地質(zhì)調(diào)查大數(shù)據(jù)分析與挖掘面臨的另一項技術(shù)問題,即深度分析。
第三,集合了地質(zhì)描述、地質(zhì)數(shù)據(jù)、地質(zhì)圖表、地質(zhì)認識的地質(zhì)調(diào)查資料價值巨大,目前,地質(zhì)調(diào)查資料處理技術(shù)主要集中在前處理和檢索查詢方面,而地質(zhì)調(diào)查綜合資料的深度分析與挖掘是地質(zhì)調(diào)查大數(shù)據(jù)分析與挖掘面臨的重要技術(shù)問題。
第四,地質(zhì)礦產(chǎn)資源評價、地質(zhì)環(huán)境監(jiān)測預警等重要業(yè)務在不斷發(fā)展,對數(shù)據(jù)與計算技術(shù)的要求更精致、更敏捷,實現(xiàn)對這些重要業(yè)務的有效技術(shù)支撐是地質(zhì)調(diào)查大數(shù)據(jù)分析與挖掘面臨的基本技術(shù)問題。
地質(zhì)調(diào)查大數(shù)據(jù)分析與挖掘的另一類技術(shù)問題源于地質(zhì)調(diào)查信息化服務。網(wǎng)絡形式的公眾服務必然產(chǎn)生公眾訪問數(shù)據(jù),這些數(shù)據(jù)以某些特定形式存儲,對這些數(shù)據(jù)的分析與挖掘有助于優(yōu)化服務系統(tǒng)配置,提高服務質(zhì)量與效率。在這方面,一些通用的分析與挖掘技術(shù)可以派得上用場,而具有地質(zhì)調(diào)查特色的分析與挖掘技術(shù)是需要重點關(guān)注的,如地質(zhì)調(diào)查空間數(shù)據(jù)熱點技術(shù)、地質(zhì)圖塊的快速檢索技術(shù)、地質(zhì)圖塊與地質(zhì)資料快速匹配技術(shù)等。
(5)可視分析有別于一般的數(shù)據(jù)處理工作,地質(zhì)調(diào)查工作中很大一部分地質(zhì)問題是地質(zhì)專業(yè)技術(shù)人員在空間數(shù)據(jù)或圖件基礎上進行綜合分析后解決的,這種解決問題的模式為地質(zhì)調(diào)查大數(shù)據(jù)可視分析技術(shù)提供了可能??梢暦治鼍褪峭ㄟ^交互可視界面來進行分析、推理和決策的過程[6],本質(zhì)也是知識發(fā)現(xiàn)。
可視分析與一般分析與挖掘的不同在于,其不依賴于數(shù)學模型,而是一種探索式分析,這與很多地質(zhì)問題的解決模式一致。
地質(zhì)調(diào)查大數(shù)據(jù)可視分析的技術(shù)基礎是多年積累的地質(zhì)體建模、地質(zhì)過程建模、地質(zhì)調(diào)查數(shù)據(jù)可視化及其交互的技術(shù),可視分析就是在這些技術(shù)的基礎上,克服高維性、不確定性和異構(gòu)性,研究開發(fā)從復雜地質(zhì)調(diào)查數(shù)據(jù)中抽取有效特征的方法,通過探索式分析完成地質(zhì)調(diào)查大數(shù)據(jù)中知識發(fā)現(xiàn),其基本技術(shù)流程如圖1所示。
當前的機器智能在復雜地質(zhì)數(shù)據(jù)的視覺識別和理解方面遠不及人腦智能,而超過50%的智能與視覺識別有關(guān)。因此,對地質(zhì)特征模型可視化結(jié)果的修正和判斷,體現(xiàn)出人腦智能和機器智能的差異,其中蘊含的就是新知識。探索式可視分析以人腦智能向機器智能的轉(zhuǎn)換、機器智能向人腦智能的展示為主線,實現(xiàn)地質(zhì)認識的螺旋式進化,在這一方面,需要解決的技術(shù)難題包括:①對地質(zhì)體和地質(zhì)現(xiàn)象的數(shù)據(jù)或參數(shù)的輸入常常存在謬誤和不精確,因而人腦智能轉(zhuǎn)換為機器智能是多人協(xié)同、反復修正的過程;②地質(zhì)調(diào)查大數(shù)據(jù)環(huán)境下,各種可視分析方法需要具備可擴充性和容納不同對象的能力,這樣才能支持多來源、多時態(tài)的地質(zhì)大數(shù)據(jù)處理。
(6)隱私與安全隱私是不愿意被他人知道或他人不便知道的敏感信息[7].地質(zhì)調(diào)查大數(shù)據(jù)以服務為重要目標,因此存在服務參與人的隱私問題。安全指不受威脅,沒有危險、危害、損失[8].信息安全指采取技術(shù)和管理的安全保護手段,保護軟硬件與數(shù)據(jù)不因偶然的或惡意的原因而遭到破壞、更改、顯露[9].數(shù)據(jù)安全一直是地質(zhì)調(diào)查信息化工作的重要內(nèi)容。
地質(zhì)調(diào)查大數(shù)據(jù)隱私與安全面臨的新情況和帶來的威脅與挑戰(zhàn)如表6所示。地質(zhì)調(diào)查大數(shù)據(jù)隱私與安全需要法律、政策、管理與技術(shù)共同維護,從技術(shù)層面,當前主要隱私和安全保護方法包括:文件訪問控制技術(shù)、基礎設備加密、匿名化保護技術(shù)、加密保護技術(shù)、數(shù)據(jù)失真技術(shù)、可逆置換算法等。
四、科學問題
地質(zhì)調(diào)查大數(shù)據(jù)的研究處于探索階段,地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)開發(fā)也處于起步階段,因而對地質(zhì)調(diào)查大數(shù)據(jù)研究中的科學問題準確描述還十分困難,這里把科學問題討論限制在地質(zhì)大數(shù)據(jù)范疇,也就是地球信息的范疇,探索性地提出2個帶有普遍性與根本性的問題。
(1)地質(zhì)大數(shù)據(jù)僅僅是地質(zhì)世界的數(shù)據(jù)映象,還是具有反映地質(zhì)世界規(guī)律能力的數(shù)據(jù)世界?地質(zhì)科學一直以來以科學實驗、知識歸納為主要研究手段,近幾十年來數(shù)值模擬也有一些發(fā)展。趙鵬大[10]指出,當前已經(jīng)進入大數(shù)據(jù)時代,大數(shù)據(jù)成為新的科學范式(數(shù)據(jù)密集型科學研究的“第四范式”[10]),是一場技術(shù)革命、顛覆性創(chuàng)新[11].那么,地質(zhì)大數(shù)據(jù)的關(guān)聯(lián)關(guān)系與地質(zhì)世界的因果關(guān)系之間存在怎樣的聯(lián)系?或者表述為:地質(zhì)大數(shù)據(jù)的相關(guān)性研究與地質(zhì)科學研究功效一致,還是僅僅是地質(zhì)科學研究的補充?在簡單的、封閉的系統(tǒng)中,基于小數(shù)據(jù)的因果關(guān)系是很容易做到的,但對復雜的、開放的巨系統(tǒng),傳統(tǒng)的因果關(guān)系是不是奏效很難說。地質(zhì)大數(shù)據(jù)進行的關(guān)聯(lián)分析是“知其然而不知其所以然”的,相關(guān)性表達2個或多個地質(zhì)變量取值之間的某種規(guī)律性,嚴格地說,統(tǒng)計相關(guān)性是無法檢驗邏輯上的因果關(guān)系的[12].不過一些支持者,如 Mayer-Schnberger[13]在《大數(shù)據(jù)時代》一書中指出了大數(shù)據(jù)時代處理數(shù)據(jù)理念的三大轉(zhuǎn)變,即要全體不要抽樣,要效率不要絕對精確,要相關(guān)不要因果。也就是“數(shù)據(jù)-信息-知識-智慧”要讓位于“數(shù)據(jù)-價值”的研究思路。當前,面對地質(zhì)大數(shù)據(jù),地質(zhì)科學研究人員有可能從中查找、分析或挖掘所需要的信息、知識和智慧,甚至無需直接接觸所研究的對象。
(2)地質(zhì)大數(shù)據(jù)關(guān)系網(wǎng)絡的本質(zhì)特征是什么?地質(zhì)數(shù)據(jù)之間復雜的網(wǎng)絡關(guān)系是地質(zhì)大數(shù)據(jù)的存在形式,深入分析地質(zhì)大數(shù)據(jù)關(guān)系網(wǎng)絡,才能把握地質(zhì)大數(shù)據(jù)的本質(zhì)。針對大型復雜的研究區(qū)域,地層、物探、化探、影像等數(shù)據(jù)之間的關(guān)系如何定量表達,這一系列表達關(guān)系的變量中是不是存在一些整體上有規(guī)律的部分,這是地質(zhì)大數(shù)據(jù)背后的關(guān)系網(wǎng)絡研究的重要內(nèi)容。
五、地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)開發(fā)方法
地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)的開發(fā)既要繼承以往地質(zhì)數(shù)據(jù)處理技術(shù)開發(fā)的一些方法與技巧,更要考慮在開發(fā)思路上的不同之處。
(1)為了降低成本,提高能效,地質(zhì)調(diào)查大數(shù)據(jù)相關(guān)系統(tǒng)需要擺脫傳統(tǒng)的通用體系,趨向?qū)S没軜?gòu)技術(shù)[14],適度抽象有利于整體把握地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)的一致性與協(xié)調(diào)。
(2)以往地質(zhì)調(diào)查數(shù)據(jù)處理技術(shù)和系統(tǒng)更多地是面向3S技術(shù),一些系統(tǒng)是3S技術(shù)在地質(zhì)調(diào)查工作中的應用,對地質(zhì)調(diào)查服務與應用環(huán)境、性能等方面缺乏深入工作。地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)開發(fā)只關(guān)注3S技術(shù)已經(jīng)不夠,還要關(guān)注信息科學與技術(shù)的發(fā)展,尤其是計算機科學與技術(shù)的發(fā)展。
(3)重視具體應用軟件開發(fā)、忽視軟硬件集成開發(fā)是以往地質(zhì)調(diào)查數(shù)據(jù)處理系統(tǒng)開發(fā)時的缺陷。地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)開發(fā)不僅要關(guān)注軟件,還要關(guān)注系統(tǒng),尤其是信息系統(tǒng)與物理系統(tǒng)結(jié)合、信息技術(shù)與自動化技術(shù)結(jié)合。
(4)以往地質(zhì)調(diào)查數(shù)據(jù)處理系統(tǒng)開發(fā)偏重系統(tǒng)功能的實現(xiàn),地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)開發(fā)只關(guān)注功能實現(xiàn)已經(jīng)不可能了,還要關(guān)注性能與復雜度,開發(fā)難度提升。
(5)地質(zhì)調(diào)查大數(shù)據(jù)處理所涉及的數(shù)據(jù)與計算規(guī)模是空前的,必須有精準的需求分析,以及完整、可靠的技術(shù)設計,在嚴格的技術(shù)監(jiān)督下逐步展開,否則可能造成經(jīng)費和時間的浪費。
六、結(jié) 語
地質(zhì)調(diào)查大數(shù)據(jù)處理技術(shù)是地質(zhì)調(diào)查信息化服務的技術(shù)核心,以信息化服務產(chǎn)品體系推動資源共享是當前的重要目標。地質(zhì)調(diào)查大數(shù)據(jù)研究,應從分析以往解決得不理想的地質(zhì)問題入手,充分利用新一代信息技術(shù),更新當前數(shù)據(jù)處理環(huán)境,在新環(huán)境下提出合理、有效的解決方案。另外,考慮在數(shù)據(jù)體量增大、類型復雜、響應時間有要求的情況下,針對以往解決得不理想的地質(zhì)問題,著重進行地質(zhì)數(shù)據(jù)的智能分析與深度挖掘,考慮合理、有效的解決方案。