朗讀百分點數據科學實驗室：智慧應急安全生產智能決策方案建設實踐第百分點數據科學實驗室：智慧應急安全生產智能決策方案建設實踐

百分點科技編者按 安全生產是應急管理的重要內容，也是國家一項長期的基本國策。 利用大數據、人工智能等先進技術，可深入挖掘安全生產薄弱環節、提升精細化安全生產管理、加快現代信息技術與安全生產業務深度融合，為人民生存發展提供重要保障。 針對當前安全生產監管信息化的需求，百分點數據科學實驗室基於機器學習和深度學習等建模技術，打造了安全生產智能決策方案，可實現多維數據的全生命周期管理和數據智能應用，助力提升安全生產監管的效率和水平。 一、項目背景1. 政策背景党中央、國務院高度重視數字政府建設，在中共中央政治局第十九次集體學習中強調：要提高應急管理的科學化、專業化、智能化和精細化水平，提高監管執法能力、輔助指揮決策能力。 為此，應急管理部先後統建“互聯網+政務服務”、“互聯網+監管”和“互聯網+執法”等系統，並提出了應急管理行業的數據治理要求，為提高應急管理數據智能建設奠定了基礎。 2. 安全生產監管信息化要求安全生產是應急管理的重要內容，並且業務系統信息化程度較高，積累了大量安全監管過程數據。 《應急管理部科技信息化領導小組辦公室關於印發地方應急管理信息化2021年建設任務書的通知》應急科信辦1號文要求基於大數據、知識圖譜、機器學習等技術，升級安全生產風險預警功能，對監管數據進行關聯展示，實現安全生產形勢分析可視化。 安全生產信息化監管不但可以指導政府監管部門從宏觀層面了解當前安全生產形勢，預測未來安全生產發展趨勢，而且可以為政府監管人員提供政策和執法抓手，科學精准地彌補安全生產薄弱環節，提高安全生產監管水平。 3. 人工智能大趨勢人工智能技術迅猛發展，應用場景日益多元化，安全生產精細化管理和決策應用逐漸普及。 安全生產智能決策方案依托人工智能和大數據技術，利用機器學習、深度學習等建模技術建立預測模型，對海量數據進行挖掘和計算，精准識別政府監管中的漏洞和不足，深入洞察安全教育培訓、行政執法、隱患排查、企業自查和生產安全事故等數據之間內在聯系和規律，為政府監管人員提供重點監管和執法方向，為精准執法賦能。 二、解決方案1. 模型數據安全生產智能決策方案涉及全業務流程的眾多數據源，多達上百張表、上千個字段。 從業務流程來說，涉及企業基本信息、危化品信息、隱患自查、隱患排查、執法和生產事故等業務流程；從數據源來說，涉及DCS等工業控制系統、安全生產教育培訓系統、重大危險源監管系統、應急管理綜合應用平台、安全生產行政執法系統、隱患排查治理系統和事故調查系統等。 2. 方案架構安全生產智能決策方案的總體架構包括數據來源、基礎設施、數據支撐層、應用支撐體系、業務應用層和用戶層。 
三、應用價值1. 監管數字化賦能數字化賦能源於人力資源管理的授權賦能（empowered）概念。 數據賦能是創新數據運用場景和實現數據價值的過程。 客觀存在的數據並不會主動呈現它的價值，而要依賴重塑、分析和挖掘等技術，構建一個價值共創的體系。 在安全生產監管方面，傳統的做法是，監管機構依據現場檢查和既往經驗進行執法。 但是隨著信息量的增加，大量龐雜數據的處理和分析已經超出了人腦的能力範圍，數字化監管勢在必行。 例如，某市有60+萬家企業，各類數據超過1000+萬條。 如何從這1000+萬條信息中，提取對監管有價值的信息呢？通過大數據的技術手段，找到風險因素最高的企業、季節性的隱患類型和風險安全事故，提前預警，提前部署監管力量，做到防患於未然。 2. 隱患導航式治理隱患導航式治理的前提是“精准定位”，精准定位隱患包括三方面內容：精准定位隱患的地理位置。 對於監管機構而言，僅僅知道隱患存在還遠遠不夠，面對較大的管轄範圍，監管機構需要知道隱患在哪裏，具體到哪些街道、網格和企業。 精准定位隱患類型。 轄區內企業各式各樣，行業不同、生產工藝不同、設備不同，隱患和事故的類型也千差萬別。 有些生產工藝極為特殊的企業，對其隱患的排查和監管需要專家協助。 精准評估隱患的風險。 數據分析發現，在現場檢查中90%以上的企業存在隱患，但是隱患的等級並不相同，對於隱患的監管整治需要點面結合、重點突出。 3. 指數差異化運用安全生產監管機構有完善的考核指標，在全部轄區內執行劃一的考核指標並不是科學的做法。 例如，某市危化企業、危險設備、儲罐、管道和粉塵作業等分布非常集中，全市共有近百個街道，但是80%以上的危化企業和危險設備集中在20個街道。 顯然，這20個街道的安全生產風險要比其他的街道高很多，按照全市統一的考核指標，可能並不能滿足安全生產監管的需求。 四、建模難點在安全生產智能決策方案中，百分點數據科學團隊做了區域風險評估和生產事故預測兩個模型，這兩個模型面臨不同的難點。 1. 區域風險評估難點區域風險評估的總體思路是：根據業務邏輯，篩選出對安全生產有影響的變量，再通過因子分析提取主成分，對每個因素進行賦權，加權計算區域綜合風險水平。 
建模過程的難點是，輸入變量較多，如果主成分選取不恰當，容易造成各因子權重相同，即因子權重=1/因子個數。 如果各因子權重相同，這是與實際業務邏輯不符的。 根據前期數據分析的結論，有些因素對生產事故的影響較大，如制造行業危險設備數量遠高於平均值的企業，其發生事故的概率遠高於該行業事故率總體均值。 在做因子分析時，需要選擇合適的，契合業務邏輯的賦權方法。 2. 生產安全事故預測難點生產安全事故預測的難點是，生產安全事故本身是一個概率極小的事件。 以某市為例，某市有60+萬家企業，過去三年發生有記錄的生產安全事故只有100多起。 發生概率極小的事情是難以從統計上尋找規律的，發生概率越小的事情可能偶然因素越多。 這種情況的建模是有先例可循的，最著名的案例是“貸款違約預測”。 在10000個貸款客戶中，真正會違約的客戶可能只有幾個。 
五、建模思路1. 區域風險評估模型針對因子賦權的問題，百分點數據科學團隊從兩個方面進行了優化。 首先，嘗試提取了不同數量的主成分，根據一般選取主成分的規則和項目場景，分別測試了選取8個、9個、10個、15個主成分時的因子載荷矩陣。 通過比對發現，選取8個和9個主成分時，原來變量的載荷區分度不夠明顯，說明主成分選取的有點少；選15個主成分時，原變量的載荷又過於分散，說明主成分選取的過細。 綜合比較選取了10個主成分。 其次，在通過主成分計算權重的時候，初始因子aij反應了各指標與主成分的相關程度，計算公式如下：
通過計算，得到各個因子的權重，以下展示部分指標的權重：
2. 生產安全事故預測模型對於負樣本較少的問題，百分點科技采用的方法是增加負樣本的權重。 首先從總體中抽取按行業、企業規模抽取與正樣本（發生生產安全事故的企業）相匹配的負樣本；其次在訓練模型的時候，增加了正樣本的權重，負樣本是1:1的權重，正樣本是1:10的權重，正樣本預測錯誤1個代表錯誤10個，在這個權重下計算模型的准確率。 百分點數據科學團隊使用了神經網絡模型預測生產安全事故概率。 神經網絡模型是一種類人的思考方式，從行業、季節、風險屬性、人員安全培訓、隱患排查、監督執法等角度預判這些因素與企業的安全生產關系，對企業的安全生產進行預測。 
構建神經網絡模型的輸入變量和關鍵參數如下：
通過神經網絡模型，百分點數據科學團隊預測某一個企業發生生產安全事故的概率，根據概率高低，對企業標注紅、黃、藍三級預警。 六、效果評估在區域風險評估和神經網絡模型的基礎上，借助數據可視化技術對模型效果進行展示，制作了風險熱力圖。 紅色表示風險熱力較高，點擊紅色區域可以下鑽至生產安全事故概率較大的企業，追蹤至引起風險的因素。 
可視化展示直觀揭示當前某地安全生產現狀和發展趨勢，從危險作業、隱患排查、行政執法、生產安全事故四大方面揭示安全生產監管過程中的薄弱點，為應急管理部門進行精准執法、重點監管、因地施策提供數據支撐，提高安全生產監管效率和水平。 七、研究和現實意義安全生產智能決策方案實現了多維數據的全生命周期管理和數據智能應用，能夠基於神經網絡模型和生產安全事故預測模型，自主學習不同因素對生產安全事故的影響，對生產安全事故的預警具有類人的理解能力、思考能力和反應能力，實現應急行業數據治理—數據分析—制定政策—安全監管的閉環管理機制。 參考資料 EYLON D. Understanding empowerment and resolving its paradox:lessons from Mary Parker Follett . Journal of Management History , 1998,4(1): 16-28.
《百分點數據科學實驗室：智慧應急安全生產智能決策方案建設實踐》完，請繼續朗讀精采文章。
喜歡 科學報 cn-n.net，請記得按讚、收藏及分享。