秦曉宏:醫院有了集成平臺與CDR,還需要建設大數據平臺嗎?
醫療信息化已經從IT(信息技術)進入DT(數據技術)的時代,醫療數據價值日益凸顯,“醫療大數據平臺”應運而生。不過,作為一個新生事物,醫療大數據平臺的外延與內涵尚未得到清晰定義,又經常與集成平臺、臨床數據中心(Clinical Data Repository, CDR)相伴出現,且有部分功能重疊。因此,對于許多醫院用戶而言,很容易對這三者的概念產生疑惑、發生混淆。
上海柯林布瑞信息技術有限公司聯合創始人秦曉宏就曾遇到過醫院信息科的提問:“我們醫院已經建設了集成平臺與CDR,還需要建設大數據平臺嗎?”
這是一個很有代表性的提問。秦曉宏認為,對這個問題進行深入剖析與解答,有助于厘清認識、準確把握,推動醫院大數據平臺建在實處、用在實處。
上??铝植既鹦畔⒓夹g有限公司聯合創始人秦曉宏
傳統方式建設的CDR只是醫療大數據的“冰山一角”
“早期談到大數據平臺時,我們經常會將其與集成平臺、數據中心‘揉’在一起談論。”秦曉宏認為,隨著對醫療大數據業務理解的日漸深入,行業對于醫療大數據平臺的認知也在逐步升級、完善。
早在2015年,原上海市衛生計生委(現上海市衛生健康委)牽頭組織編寫《上海市醫院信息集成平臺建設與實踐應用指南》,柯林布瑞參與編寫工作,秦曉宏受邀成為該書的第一副主編。
《指南》首次將業務集成平臺與數據平臺從概念和任務上區分開來:集成平臺的核心是HSB醫院服務總線(其它行業稱ESB:企業服務總線),重點解決業務系統之間的接口問題,主要工作是將業務系統按照統一標準實現交互、集成與協同;而數據平臺的任務是整合醫院所有業務系統的數據,重點解決醫院數據的統一管理、標準化、數據治理以及大數據應用等問題。
當時,行業的普遍思路是:“數據平臺的建設要基于業務集成平臺”,以及“不做接口,就無法建設數據平臺”。而柯林布瑞很早就明確提出:一家三甲醫院往往面對著數百個異構、數十個系統廠商,如果大數據平臺的建設必須依賴廠商配合、改造接口的方式來獲取業務數據,這條路是走不通、走不遠的。為此,柯林布瑞提供了新的平臺建設方案,也即“在不需要對任何業務系統進行接口改造、不影響業務系統正常運轉的前提下,從業務系統數據庫底層中抽取和同步數據”。
《指南》的另一大貢獻,是在臨床數據中心(CDR)的基礎之上,率先在行業中提出并定義了運營數據中心(Operational Data Repository,ODR)與科研數據中心(Research Data Repository ,RDR)。按照不同領域模型及數據倉庫的不同要求,《指南》將人、財、物的數據歸于ODR,將科研單病種庫、隊列庫、生物樣本庫等數據歸于RDR。
目前,CDR、ODR、RDR三大數據中心的理念已在行業深入人心。秦曉宏談道:“這幾年我與一些行業專家也有討論:是否還應有一個教學數據中心(Education Data Repository,EDR)?大部分三級醫院都承擔著教學任務,在教學過程中需要對數據進行標注,并建設教學案例庫。因此,未來醫院可能需要建設臨床、運營、科研、教學四大核心數據中心。”
針對數據中心的分類討論,其實質是醫療大數據的范圍涵蓋相當廣闊,CDR只是其中的一個部分。更為重要的是,哪怕將視線范圍縮小至臨床數據部分,此前大部分醫院建設的CDR數據元涵蓋范圍依然非常有限,屬于“小CDR”,無法勝任新形勢下醫療機構面臨的各類數據需求。秦曉宏認為,醫院需要對原有的“小CDR”進行重建或重構,原因在于:
首先,CDR的建設目標與任務已然發生變化。此前,醫院建設CDR的目的主要是為支持患者360視圖等應用,需要的數據元大約在2000個左右。一般而言,臨床需要展現什么數據,或患者就診過程中能拿到什么數據,CDR就存放哪些維度的數據。如今,CDR肩負的重任已不可同日而語,過程醫療質控、AI輔助決策、醫院運營管理等都對其提出了新的要求,需要CDR采集臨床活動全過程的數據,數據元要求更廣(可能有上萬個),粒度要求更細。
其次,CDR的建設路徑、技術方法有了全新提升。秦曉宏認為,大部分醫院的CDR都是在建設HSB時的“順手為之”,業務集成平臺能交互哪些數據,就在CDR中存放哪些數據。這樣做的問題是,在集成平臺上交互的數據是很有限的,而且也無法確保數據整合的有效與完整性。“因此這類CDR里存放的數據只是所有診療數據中一個很小的子集,是冰山一角,這對于未來數據的深度挖掘是遠遠不夠的。”
因此,出于長遠發展的整體考慮,醫院重構CDR將勢在必行。為了支撐高質量的CDR、ODR、RDR,乃至EDR建設,大數據平臺無疑是最佳路徑之一。
建設醫院大數據平臺的5個建議
那么,醫院如何設計規劃大數據平臺的建設工作?秦曉宏提出了5點建議。
首先,要充分考慮如何通過“非接口”方式整合數據。這是柯林布瑞一直以來的主張:大數據平臺的建設要擺脫對業務系統的接口依賴。為實現這一目的,柯林布瑞采用變化數據捕獲(Change Data Capture,簡稱CDC)技術,通過連接業務系統的鏡像數據庫,實時解析數據庫日志文件,捕獲數據變化,并抽取存量的二三十年的業務源數據,再經過清洗、標準化、數據治理后,集成到大數據平臺。
第二,需要對異構系統的數據結構進行準確識別。不同業務系統的數據結構定義各不相同,在對抽取后的數據進行治理之前,大數據平臺需要對不同系統的數據結構進行準確識別,避免張冠李戴等問題發生。這需要大數據平臺廠商具有豐富的行業積淀與建設經驗,目前柯林布瑞已具備超過500家HIS、EMR、LIS等業務系統廠商的異構數據整合能力。
第三,重視整合及大數據分析性能的問題。為解決臨床場景中的過程質控、AI輔助決策等問題,大數據平臺的數據實時性需要從T+1提升到“秒級”。為此,柯林布瑞的大數據平臺采用Hadoop+MPP(Massively Parallel Processing,大規模并行處理)架構,支持多節點并發的快讀快寫,從底層架構上確保了數據整合過程中數據快速“落地”,也確保了建成的大數據平臺實現亞秒級響應。
第四,切實保障數據質量。醫院大數據平臺不能單純追求數據“規模大”,而更應追求“質量好”。什么樣的數據才能稱得上高質量?秦曉宏認為,首先應對“數據質量”進行定義,柯林布瑞基于數據的一致性、規范性、完整性、合理性、關聯性5大核心要點,確定數據質量管控規則,并在此基礎上形成數據質量規則庫,目前已涵蓋接近3000項規則。其次,應對數據質量進行有效管控。除了對大數據平臺的數據進行質控,還要包含對ODS層(Operational Data Store,操作數據層,或稱為貼源數據庫,用于直接存放從業務系統中抽取過來的原生態數據)的數據質控。一旦發現數據質量問題,平臺可通過貼源數據庫倒推至數據產生源頭,定位原因,再通過信息科與業務系統廠商溝通優化,通過PDCA機制不斷提升數據質量。
第五,平臺需提供開放的數據訂閱開發能力。醫院大數據平臺建好、用好的一個標志,是醫院在不需要依賴平臺廠商的前提下,擁有自主的數據訂閱開發能力。要實現這一目標,大數據平臺首先需要通過若干個子系統或相關組件,從底層提供能力支撐。比如,柯林布瑞通過“元數據管理系統”,幫助醫院將所有的數據資產目錄盤點清楚,讓醫院知道有用的數據在哪里,從哪里來、到哪里去,如何分類,彼此之間的關系是什么。其次,柯林布瑞為醫院提供可自主擴展的多類型數據訂閱服務能力,打造“數據超市”。醫院可根據不同類型的數據應用需要,通過微服務等方式,自行選擇所需數據組裝成新的數據集,不僅可構建醫院運營管理、三級醫院評審、績效考核等系統,也可以支撐各類數據上報工作。
目前,柯林布瑞已幫助100多家大型三級醫院構建大數據平臺,并在臨床科研、單病種質控、公立醫院績效考核、等級醫院評審、運營管理、AI輔助決策等多個領域充分發揮大數據的價值,結出了累累碩果。秦曉宏表示:“確保為醫院構建高質量的大數據平臺,確保為醫院、醫生、患者創造了價值,這是柯林布瑞對自身設定的要求。畢竟,大數據平臺的建設沒有終點,持續創造價值才是目的。”
