前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算社會學基礎問題及未來挑戰范文,希望能給你帶來靈感和參考,敬請閱讀。
計算社會學是計算社會科學與社會學的學科交叉,是一門新興學科。社會學作為一門獨立的學科經歷了近200年的發展,已經形成完善的學科體系,但是其倡導的實證主義在宏觀解釋與微觀解釋、數據驅動與理論驅動、相關分析與因果推斷、信度與效度等方面長期存在內在“張力”。計算社會科學是對社會科學實證主義傳統的推進,借助于計算機和信息通信技術(ICT)的迭代更新,其研究方法和研究設計都有別于傳統范式,研究議題越來越突破傳統的學科界限。面對作為典型的復雜性系統的社會,計算社會學具有的學科交叉、基礎理論和應用對策并行等特質,使其在回應實證主義面臨的諸多困境時具有明顯優勢。
一、實證社會科學面臨的不確定性
實證社會科學是指利用實際調查或訪談資料來驗證理論假設或者構建理論的研究范式,它有別于純理論思辨式的傳統社會科學。社會學在實證社會科學的發展早期發揮了舉足輕重的作用??椎绿岢龅纳鐣锢韺W力圖用科學的方法研究人類社會的構想,在實證社會科學的發展歷史中遇到了許多困難。如果將社會科學研究看成是研究主體、研究客體和研究過程所構成的三個有機整體,則可以更清晰地理解其面臨的不確定性。首先,理解并揭示社會現象發生和發展的因果關系是實證社會科學一直追求的,但社會復雜性所帶來的不確定性使得實現上述目標的難度大大增加。在復雜系統內,多元個體在某一框架之內進行互動,行為會彼此影響,并且個體具有適應性和學習能力,最終引起特定的功能涌現。正是由于社會系統的復雜性,并不存在像“萬有引力”那樣的普遍規律,加之系統成員具有自主選擇和創造的能力,使得實證研究發現在一般化上總是不甚理想。其次,實證社會科學已經發展出完備的理論和方法工具箱,但是研究者在方法論的認同和運用上的偏好都會帶來實證發現的不確定性。社會科學家有一種自然而然的研究傾向,即嘗試通過理解行動者的意圖、信念、場景和機遇,去解釋他們的行動及后果。在田野調查中,不同的研究者即使從訪談對象那里獲得完全相同的信息,在“裁剪”的過程中仍然無法避免出現理解偏差;在定量研究中,雖然開放性、透明性和標準化程度相對更高,但這并不意味著研究者偏好對實證研究的“干預”更少。最后,研究設計是實證社會科學區別于思辯哲學的關鍵環節,當然也是不確定性的主要生成器。一方面表現為模型設定起點的不確定性。理論導向的實證研究尤為強調理論對模型建立的指導,通常采取的策略是以所對話的理論為起點。要探究理論之核心變量對因變量的影響模式,必須排除若干競爭性解釋,這在模型上主要通過引入控制變量來實現。另一方面,模型假定、數據構成、操作化測量、事后因果框架等都導致模型輸出結果的不確定性。任何模型對資料(定性或定量)構成都有相應的前提假定,如總體分布、代表性(包括類型)、信度、效度等,研究者不得不通過“改造”資料以減少實際研究中遇到的前提假設違背困境??傊?,研究結果的不確定性是實證社會科學的基本特征之一,如何消解其對社會科學的約束一直是個棘手的問題。數據密集型(data-intensive)科學范式的到來,為實證社會科學提供了許多變革的機遇。由此,筆者認為有必要將該問題置于計算社會科學的發展脈絡中。
二、計算社會科學的主要傳統
計算社會科學能夠積極應對實證社會科學的不確定性。其中,基于模擬社會系統或過程的社會仿真可以克服傳統模型的線性思維和化約主義,對于復雜性有著更科學的探究;大數據分析通過對海量數據的挖掘推動知識生產,減少了模型設定、測量和結論泛化的不確定性。
(一)社會仿真:生成解釋的傳統
生成解釋(generativeexplanation)是通過建立有關被研究社會系統的模型,并從模型的運行過程和結果中獲得對研究對象的理解。該傳統主要通過對主體的行動及其相互作用規則的設定,從演化過程中獲得新的機制解釋?!皬碗s性”是生成解釋背后的認識論基礎,它將現代物理和生物學結合,認為社會永遠處于時間的邊緣,結構時刻在組合、衰敗和發展。社會仿真(simulation)是生成解釋的主要方法,它始于20世紀50年代,在研究社會的復雜性上遠遠超越了其他多數研究方法。該方法通過建立一個模擬社會系統或過程的計算機模型,即建立一個能夠表征現實世界的“人工社會”,開展各種社會科學分析。仿真模型能夠容納具有適應性的主體,實現主體之間的交互,展現了從微觀個體行為到宏觀系統狀況的“涌現”。它能夠將行動主體的異質性、自我適應性、有限理性、交互性等重要因素重新納入研究框架之中,克服多數模型的線性外推思維、無法反映宏觀-微觀線性內在聯系、缺乏對“活”系統成員的描述等不足,自下而上地構建一個逼近真實的人工社會,以揭示事件發生的條件、概率、限度以及多種可能選擇的策略。總體而言,社會仿真經歷了從宏觀仿真到微觀仿真,再到基于主體仿真的發展歷程,主要分為面向變量模型、面向對象模型和混合社會模型等類型。其中,基于行動者的模型(agent-basedmodelling,ABM)屬于面向對象建模,為研究者提供了創建、分析和試驗由在環境中互動的行動者構成的模型。
(二)大數據分析:數據挖掘的傳統
數據挖掘傳統主要基于互聯網在線實時所產生的大數據,利用數據科學和計算科學的前沿技術做數據挖掘,進行理論檢驗和社會預測。有別于社會仿真,該傳統的數據資料來源更加多元、時空跨度更大、體量更大、形式多樣,由此為計算社會科學的發展提供了難得的機遇。與傳統主要通過收集觀察、抽樣調查的數據不同,大數據是在弱選擇性觀察、弱設計、弱標準化、弱目的性的前提下自動存取的非結構化的痕跡數據。雖然無法回避算法干擾、數據漂移、代表性、個人隱私等方面的困擾,但它還是為社會科學家打開了一扇理解人類社會的新大門。同時,大數據在方法論層面為傳統社會科學研究注入了新的活力,即來自計算科學的數據驅動?;趯A繑祿耐诰蛉ヌ綄ね黄迫祟惣扔兄R結構的新發現,并在此技術上發現和建構新理論和新理解。這種方法論上的革新,促使演繹和歸納更為密切地結合,也使得計算科學、數據科學和社會科學的聯系更為緊密。數據挖掘無論在數據屬性、分析方法和研究目標上都與實證社會科學存在明顯不同。數據挖掘的分析對象有別于傳統數據,研究者往往需要借助自然語言處理(包括情感分析、潛在狄利克雷模型等)、圖像識別、深度學習等發端于計算科學的分析工具。在研究目標上,大數據分析將預測置于核心位置,有別于實證社會科學強調因果解釋的傳統。由于大數據不再局限于“觀察”,全息記錄不會對非直接關聯變量進行過早篩選,因此恰恰可以為預測提供更全面的基礎信息。加之機器學習強調偏差與方差的權衡(bias-variancetradeoff),也使得模型預測的穩健性得到顯著提升。
三、計算社會學的基礎問題
(一)概念界定
計算社會學是計算社會科學的分支。本文認為,計算社會學是以計算科學、數據科學等為主要分析工具,將非介入方式收集的大規模數據與傳統數據集相結合,挖掘人類社會和社會互動的規則和模式,用以解釋人類行為與社會運行規律的科學。
(二)學科界限
與社會學其他分支相比,計算社會學的理論更多來自相鄰分支,而研究方法則從計算科學和數據科學遷移而來。在學科內部,計算社會學是一門提供“范式”的學科,它能夠在方法論和研究方法上開辟新的方向,有助于拆除社會學中定性和定量研究之間的藩籬;從經濟社會學、組織社會學、政治社會學等分支學科汲取理論養分,使學科內部彼此融通;通過多理論整合、多方法融合和多類型數據匹配,將傳統社會學在數據生產上的優勢得以延展。在學科之間,計算社會學采用人工智能和數據挖掘等計算科學方法,不局限于總體性思維,在技術的層面具有天然的開放性和包容性,有助于達成共識;其同時重視理論創新和現實關懷,既可以與管理學、新聞傳播等應用性強的學科交叉,也能與哲學、歷史學等基礎性學科交叉。
(三)研究范式
計算社會學作為一門“范式”型的學科,至少包括方法論和學科定位兩個面向。在方法論層面,歸納和演繹是知識發現的基礎。囿于社會科學的特殊性,歸納和演繹并不能較好地整合起來。計算社會科學的核心之一是數據挖掘,實際上是一個知識發現的過程,包括理解問題領域、理解數據、數據準備、數據挖掘、評估新知識和使用新知識等環節,融合了歸納和演繹兩種研究方法。由此,計算社會學主要包括兩種:一是理論與數據雙向驅動。理論與數據雙向驅動是以現實問題為導向,以社會科學相關領域的理論知識經驗為基礎,提出理論假設和研究框架,然后收集適當的原始數據,并采用適切的分析技術從中提取信息挖掘知識,然后以科學可靠的方式運用數據和知識來檢驗理論假設,最終發現和揭示人類社會的規律。二是理論引導的大數據分析。計算社會學把社會學理論以及研究方法與大數據分析融為一體,為大數據分析開啟了許多新議題。在學科定位層面,與傳統社會學不同,計算社會學更強調理論創新與現實關懷的結合,而不滿足于象牙塔。首先是社會預測。機器學習可以為社會科學處理結構更為復雜、樣式更加多元的信息內容,并生成可供分析的變量形式,從而拓展社會科學的研究視界:獲得潛藏指標、啟發理論假說、助力因果推斷、實現數據增生和推動理論創新。其次是整合“解釋—預測”。該范式試圖建立一種綜合模型,提倡一個明確的標簽系統,用以更清楚地描述個人的研究貢獻,識別其所屬的象限,倡導開放的科學實踐。最后是社會干預。計算社會學有著更強的科學性和應用性傾向,社會計算不僅是技術手段,也是社會現實的生成過程。除了能在研制與開發新型社會計算工具中發揮重要作用,研究計算與社會的關系和有關計算/技術的問題同樣是計算社會學的重要內容。
(四)研究方法
計算社會學的研究方法很大程度上受益于計算社會科學。目前,計算社會科學已經形成了社會數據計算、互聯網社會科學實驗、社會模擬三大方法體系。社會數據計算主要集中于數據挖掘過程,這種方法背后的計算思維強調對所需優化問題的理解,將其分解為不同的任務,最后通過計算機的自動化實現這些分解的任務。社會數據計算的應用場景不僅包括對大數據的清洗(如針對變量缺失、代表性弱、非結構化等),還涵蓋特征提取、交叉驗證、模型校準等,其基礎是機器學習?;ヂ摼W社會科學實驗是將互聯網平臺作為一種“實驗室”,運用新興的信息技術作為工具開展隨機實驗。和實驗室實驗、自然實驗等傳統社會科學實驗相比,該方法在樣本代表性、環境仿真度、條件控制力、可復制性、主事者偏差、受試者偏差、內在效度和外部效度等方面都具有不同程度的優勢。最后,社會仿真實質上是在計算機中構造與現實世界相對應的人工世界,建立起與真實系統相對應的平行系統,并在人工世界與平行系統中對現實復雜系統進行試驗性研究。
四、計算社會學在中國發展的挑戰
計算社會學作為計算社會科學的子集,無法逃脫數據共享、數據基礎設施建設、倫理遵循、學術復合型人才培養等諸多挑戰。本文將從國家定位與學科自覺、定性與定量、抽樣調查與感應器采集之間的內在張力等方面歸納計算社會學在中國發展可能面臨的挑戰。
(一)學科定位
中國社會學恢復以來,始終堅持“兩條腿”走路,即遵循學科發展規律不斷建立和健全學科體系的同時,回應重大的理論和現實問題。計算社會學自提出以來就有著很強的應用性底色。以社會決策為例,傳統的預測和決策多依賴于對常規性事實的研究,而計算社會學提供了一個應對高度復雜和快速變化環境的高效能、低成本的新工具。當然,計算社會學在學科拓展的過程中要始終保持理論自覺。在計算社會學中,理論和計算的關系不再是單向的指導與被指導關系,而是雙向促進和螺旋上升的過程。
(二)方法超越
定性和定量研究方法的爭論在國內社會科學中較為普遍。由于社會學兼具“人文”和“科學”雙重性格,加上社會學在中國恢復發展的特定歷史原因,超越定性與定量之爭的問題相對突出。囿于計算社會學天然的量化屬性,也就自然被卷入研究方法之爭。相比于傳統的量化研究,計算社會學的資料收集和分析邊界變得更加模糊,數據挖掘的算法不再僅僅是一種簡單的應用,其團隊協作對成員的知識構成和規模都提出了更高的要求。如今,計算社會科學正在引發數據觀念、研究設計、模型選擇和推論原則等方面的實質性影響,調整了社會科學研究中依賴理論的思維定勢。然而,如果無法超越定性與定量之爭,計算社會學的合法性危機在相當長的時期內都將難以消解。
(三)數據生產
實證社會科學的發展離不開數據的采集及處理技術的進步。事實上,社會學不僅輸出了許多理解人類社會的“語法”,也構建了以抽樣調查為核心的研究方法體系,為知識界生產和積累了大量的高質量數據。然而,作為工業化產物的社會調查,正在受到以感應器為基礎設施的數據生產體系越來越多的挑戰。
作者:范曉光 劉金龍 單位:浙江大學社會學