前兩天公眾號所發(fā)出的推文《我為什么要強烈反對:對著數(shù)據(jù)做數(shù)據(jù)的研究》,引發(fā)了很多有益的討論。交通大數(shù)據(jù)分析研究的水面過于平靜,激起點波瀾是好事情??戳舜蠹业挠^點,感到有必要談一下自己的想法。
首先,作者所提出的討論問題的框架(“定義-> 數(shù)據(jù)源->計算方法-> 擴樣方法-> 數(shù)據(jù)校核”)是數(shù)據(jù)分析的討論模式。這并非是說大數(shù)據(jù)分析不需要這方面的工作,由于大數(shù)據(jù)分析是建立在基于數(shù)據(jù)的統(tǒng)計分析基礎(chǔ)之上,必要的數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)修復是前提和基礎(chǔ),但遠非全部。在大數(shù)據(jù)分析中采用“是否獲得確切的結(jié)論”,而不是采用“是否獲得有價值信息”的方式討論一些局部研究工作是不恰當?shù)摹?/p>
同時需要注意的是大數(shù)據(jù)分析要盡可能避免“擴樣”,這一方面是大樣本分析與小樣本分析具有本質(zhì)性的差異。小樣本方法也稱為“精確方法”,因為它往往是基于有關(guān)統(tǒng)計量的精確分布,小樣本方法的統(tǒng)計特性,如顯著性水平、置信系數(shù)等,往往是精確而非近似的。大樣本方法則被稱為“漸近方法”或“近似方法”,因為它是基于統(tǒng)計量的漸近分布,且有關(guān)的統(tǒng)計特性只是近似而非精確的,因而產(chǎn)生了近似程度如何的問題。更為重要的是,大數(shù)據(jù)具有很強的“蓋然性”特征(蓋然性在《現(xiàn)代漢語詞典》中的解釋是:有可能但又不是必然的性質(zhì))。由于大數(shù)據(jù)分析所使用的數(shù)據(jù)資源并非針對分析目的的“定制數(shù)據(jù)”(就如移動通信信令數(shù)據(jù)并非專為空間活動檢測的數(shù)據(jù)),其中的屬性判斷涉及“否定-模糊-肯定”三個值域,相當部分個體的屬性判斷是落在“模糊”區(qū)域的。在職住空間聯(lián)系結(jié)構(gòu)的判斷中,就涉及對于是否就業(yè)者的判斷。缺乏個體社會屬性信息情況下,僅僅根據(jù)用戶空間活動特征必然存在相當部分難以判斷,而試圖獲取個體社會經(jīng)濟屬性則是一條不能逾越的紅線。采用傳統(tǒng)數(shù)據(jù)分析方法進行擴樣,強行區(qū)分將中間難以判斷部分人歸入是或者否的范疇,反而會造成可信度(大數(shù)據(jù)分析中應該采用可信度而非精度)方面的問題。因此,交通大數(shù)據(jù)分析一般應該僅使用“否定”和“肯定”部分所提供的信息。當然這種信息是不完整的,這就是為什么我一直強調(diào)大數(shù)據(jù)分析所獲得的單項證據(jù)絕大多數(shù)為“間接證據(jù)”的原因。認為這種不完備證據(jù)不具有分析價值是嚴重偏離了大數(shù)據(jù)分析的初衷,大數(shù)據(jù)分析中恰恰非常強調(diào)低信息密度數(shù)據(jù)。大數(shù)據(jù)分析最為重要的一點,是充分利用各種有價值信息,多層次、多角度、連續(xù)地觀察研究對象,對具體數(shù)據(jù)分析的任務應定位于“是否可以獲取有價值的信息”,而非“獲取完備信息”(直接證據(jù))。交通大數(shù)據(jù)分析研究并非不知道信息缺陷,而是不放棄不完備信息(間接證據(jù)),力圖通過“證據(jù)鏈”,采用基于證據(jù)的“證-析”方法解決問題。作者所批評的“職住空間聯(lián)系結(jié)構(gòu)”研究工作,糾結(jié)于400萬確定個體以外部分占有很大份額,是誤解了相關(guān)的研究目的,自認為該方面的研究是力圖通過移動通信信令數(shù)據(jù)來確切了解城市中的各種職住分布與職住空間聯(lián)系,但是該項研究主要目的是識別“職住的空間聯(lián)系結(jié)構(gòu)”包括哪些類型(至于作者所提出的推文中沒有討論數(shù)據(jù)具體處理的質(zhì)量分析問題,我已經(jīng)建議作者應該去看該碩士論文,而不是公眾號的短文)。事實上,對于交通角度的研究工作來說,如果為了研究當前通勤交通流量是完全沒有必要繞道“職住”關(guān)系這個圈子。采用移動通信信令數(shù)據(jù)研究“職住空間聯(lián)系結(jié)構(gòu)”特征的工作,并非識別每一個具體“職住社區(qū)”的空間位置和范圍,主要是希望通過移動通信信令數(shù)據(jù)判斷城市中的職住“社區(qū)”(此社區(qū)并非城市規(guī)劃中的“社區(qū)”,而是復雜網(wǎng)絡中所定義的社區(qū))結(jié)構(gòu),以及識別城市中具有廣泛意義的職住的空間聯(lián)系關(guān)系究竟有幾種類型,以完成宏觀層面的問題結(jié)構(gòu)判斷,為相關(guān)案例剖析和深入調(diào)研方案打基礎(chǔ)。作者混淆了大樣本分析與小樣本分析的差異,也沒有真正理解“大數(shù)據(jù)分析”與“數(shù)據(jù)分析”的不同,也不知道這部分工作是在“宏微觀嵌套分析框架”下進行的,因此文中的這部分結(jié)論我是完全不贊同的。
面對大數(shù)據(jù),傳統(tǒng)統(tǒng)計意義上的數(shù)據(jù)校核往往是難以實現(xiàn)的,這正是李國杰院士提出在大數(shù)據(jù)科學中需要研究相關(guān)統(tǒng)計學新問題的原因。仍然以職住空間聯(lián)系結(jié)構(gòu)研究為例,移動通信信令數(shù)據(jù)的基礎(chǔ)是移動通信基站服務范圍,在市域范圍內(nèi)基站服務范圍差異很大,中心城區(qū)內(nèi)是2-300米的半徑,而外圍地區(qū)則達到數(shù)公里乃至10公里左右,也就是說其空間坐標參照系是非均勻的,這意味著相當部分定位數(shù)據(jù)橫向是不可比的。即使采用質(zhì)量更好的數(shù)據(jù),所確定的個體位置也是具有很大不確定性。想要通過盡力提升數(shù)據(jù)質(zhì)量,獲取理想數(shù)據(jù)來完成數(shù)據(jù)分析工作,仍然沒有擺脫傳統(tǒng)數(shù)據(jù)分析的思維方式,有可能遇到難以克服的障礙。如果把視野擴展到交通大數(shù)據(jù)分析中的“輿情分析”,通過語義分析技術(shù)從網(wǎng)絡中提取的輿情信息,更加不是傳統(tǒng)數(shù)據(jù)檢驗能夠完成可信度評估的任務。交通大數(shù)據(jù)分析探索的是完全不同的另外一條研究路線:挖掘不完備數(shù)據(jù)資源的價值,通過將間接證據(jù)組合成為證據(jù)鏈來,基于證據(jù)鏈通過群決策完成問題識別與判斷。
作者的題目強調(diào)批判“對著數(shù)據(jù)做數(shù)據(jù)的研究”,有可能混淆了技術(shù)應用研究與探索性科學研究的界限。城市交通已經(jīng)進入“物理-信息-社會”三元空間的時代,感知網(wǎng)、物聯(lián)網(wǎng)等技術(shù)發(fā)展使得數(shù)據(jù)繞過“人”而直接產(chǎn)生信息,信息空間有很強的獨立性。在此背景下交通大數(shù)據(jù)分析的任務并非是“利用更多的數(shù)據(jù)資源去對已有經(jīng)驗外延”(這應該是交通數(shù)據(jù)分析的任務),而是充分利用各種信息,盡力發(fā)現(xiàn)我們所不知道的問題,以更好地應對具有復雜適應性特征的城市交通演化。為此,必須展開大量的探索性研究工作,從并不完備的海量數(shù)據(jù)中提取有價值信息的方法,就是其中的一部分。缺少了這部分工作,根本談不上在大量“間接證據(jù)”的基礎(chǔ)上構(gòu)建“證據(jù)鏈”,進而完成城市交通的“情報決策”。但是要注意“對著數(shù)據(jù)做數(shù)據(jù)的研究”與“僅根據(jù)不完備數(shù)據(jù)分析下結(jié)論”是兩個完全不同的概念,作者似乎沒有對此加以區(qū)分。前者是科學和技術(shù)發(fā)展需要的(再次強調(diào)由于技術(shù)的發(fā)展,信息已經(jīng)成為一個相對獨立的空間),后者是錯誤的。就像不能認為采用傳統(tǒng)數(shù)據(jù)分析方法進行規(guī)劃等方面的問題研究是錯誤路徑一樣,也不能認為在一定需求背景下展開針對數(shù)據(jù)本身的特征提取和情報決策研究是鉆牛角尖。前者是采用數(shù)據(jù)分析技術(shù)的應用研究,后者是構(gòu)建交通大數(shù)據(jù)分析的理論與方法的研究,任務不同。
交通大數(shù)據(jù)分析技術(shù)研究必然會有波折起伏,在這個過程中更多觀點的討論是非常必要,只有這樣才能夠真正完成科學和技術(shù)的升華。對于一個遠談不上成熟的領(lǐng)域,在學術(shù)上還是很有必要區(qū)分“數(shù)據(jù)分析”與“大數(shù)據(jù)分析”的差異,以避免引起混亂。
掃一掃在手機上閱讀本文章