更新時(shí)間:2024-06-26 20:19:13作者:佚名
相關(guān)化合物的數(shù)字化服務(wù)正在逐步推進(jìn),3D影像、遠(yuǎn)程醫(yī)療、可穿戴醫(yī)療檢測(cè)等新的服務(wù)模式的研究使得數(shù)據(jù)與醫(yī)學(xué)發(fā)展緊密相關(guān),并簡(jiǎn)要概括了其歷史發(fā)展特點(diǎn)、健康數(shù)據(jù)結(jié)構(gòu)的多變性、價(jià)值密度的多維性,以及我國(guó)疾病全史的研究。 但我國(guó)醫(yī)療數(shù)據(jù)的應(yīng)用還不夠有效。在產(chǎn)業(yè)發(fā)展過(guò)程中,以及產(chǎn)業(yè)發(fā)展過(guò)程與數(shù)據(jù)結(jié)果之間的聯(lián)系,是目前需要探索的。 本研究嘗試設(shè)計(jì)并實(shí)現(xiàn)基于大數(shù)據(jù)的醫(yī)療健康信息服務(wù)平臺(tái),提升醫(yī)療健康服務(wù)水平,相關(guān)研究正在嘗試大數(shù)據(jù)在醫(yī)療健康領(lǐng)域的應(yīng)用過(guò)程。 關(guān)鍵詞 大數(shù)據(jù),健康 1.引言 隨著現(xiàn)代社會(huì)文明和城市的快速發(fā)展健康大數(shù)據(jù)管理與服務(wù),城市流動(dòng)人口日益增多,城市工作和生活壓力不斷增大,特別是老齡化進(jìn)程不斷加快,危害公民健康的環(huán)境和社會(huì)因素不斷涌現(xiàn),使得居民健康醫(yī)療問(wèn)題日益突出,醫(yī)療費(fèi)用不斷上升,給個(gè)人和社會(huì)造成了沉重的經(jīng)濟(jì)負(fù)擔(dān)。
因此,世界各國(guó)都在想方設(shè)法提高國(guó)民健康水平,降低醫(yī)療費(fèi)用,對(duì)相關(guān)新技術(shù)、新方法研發(fā)的投入不斷加大,與醫(yī)療健康行業(yè)直接相關(guān)的行業(yè)正經(jīng)歷快速發(fā)展時(shí)期,3D影像、遠(yuǎn)程醫(yī)療、可穿戴醫(yī)療檢測(cè)等新型醫(yī)療健康服務(wù)模式不斷涌現(xiàn),海量異構(gòu)的醫(yī)療健康數(shù)據(jù)迅速積累,醫(yī)療健康行業(yè)本文得到上海市科委2013年度“科技創(chuàng)新行動(dòng)計(jì)劃”項(xiàng)目:醫(yī)療健康大數(shù)據(jù)服務(wù)平臺(tái)研究與示范應(yīng)用()、2013年度上海市科技人才計(jì)劃項(xiàng)目:智慧城市領(lǐng)域大數(shù)據(jù)分析關(guān)鍵技術(shù)研究與應(yīng)用(13XD14243.o)資助。童慶(1977-),男,博士,高級(jí)工程師。主要研究方向?yàn)榇髷?shù)據(jù)管理與應(yīng)用、智能計(jì)算、智能計(jì)算與智能計(jì)算。com; 張靜怡(1974-),女,博士,高級(jí)工程師,主要研究方向?yàn)閿?shù)據(jù)挖掘、云計(jì)算技術(shù);余攀(1987-),女,碩士,主要研究方向?yàn)檐浖こ獭?shù)據(jù)分析;肖發(fā)華(1969-),女,高級(jí)工程師,主要研究方向?yàn)檐浖こ獭⒅R(shí)管理。?449?
新的“數(shù)據(jù)浪潮”即將來(lái)臨[1]。隨著數(shù)字化時(shí)代的到來(lái),信息技術(shù)也正經(jīng)歷快速發(fā)展時(shí)期,大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等新興技術(shù)的出現(xiàn)支撐著各行業(yè)業(yè)務(wù)執(zhí)行能力和社會(huì)生產(chǎn)能力的提升[2]。其中,大數(shù)據(jù)技術(shù)從數(shù)據(jù)資產(chǎn)管理能力的角度,力求解決從龐大的數(shù)據(jù)資源中快速獲取高價(jià)值信息的問(wèn)題。醫(yī)療健康行業(yè)作為與居民生存息息相關(guān)的典型領(lǐng)域,也成為大數(shù)據(jù)應(yīng)用落地的重要場(chǎng)景[3]。美國(guó)哈佛醫(yī)學(xué)院對(duì)8所附屬醫(yī)院患者的電子病歷進(jìn)行整理,得出某年銷(xiāo)售額達(dá)數(shù)百億美元的大牌藥物可能存在致命的副作用,分析結(jié)果提交美國(guó)食品藥品管理局(FDA)后,直接導(dǎo)致該類(lèi)藥物下架。 在英國(guó),牛津大學(xué)臨床樣本中心選取了15萬(wàn)份臨床數(shù)據(jù),通過(guò)簡(jiǎn)單的數(shù)據(jù)整理和畫(huà)圖,得到了50歲以上人群正常血壓值的分布范圍,直接改變了人們對(duì)高血壓的認(rèn)識(shí)[4]。應(yīng)用案例證明了大數(shù)據(jù)技術(shù)在醫(yī)療健康領(lǐng)域具有巨大的發(fā)展?jié)摿Γ沧屛覀冏⒁獾酱髷?shù)據(jù)在采集、存儲(chǔ)、處理等方面獨(dú)有的特點(diǎn)與我們目前處理數(shù)據(jù)的方式有很大不同。醫(yī)療健康大數(shù)據(jù)將助力醫(yī)療健康服務(wù)從疾病診療向疾病預(yù)防和居民健康管理轉(zhuǎn)變,從單一的醫(yī)療服務(wù)向醫(yī)療公立機(jī)構(gòu)綜合管理服務(wù)轉(zhuǎn)變,從體驗(yàn)式醫(yī)療服務(wù)向基于循證醫(yī)學(xué)的個(gè)性化醫(yī)療服務(wù)轉(zhuǎn)變。因此,醫(yī)療健康大數(shù)據(jù)分析技術(shù)將實(shí)現(xiàn)醫(yī)療健康領(lǐng)域離散、異構(gòu)的海量醫(yī)療數(shù)據(jù)源的整合,形成覆蓋范圍廣泛的電子病歷和居民全生命周期的健康檔案,建立面向健康應(yīng)用需求的醫(yī)療健康信息數(shù)據(jù)分析、挖掘、預(yù)警和指導(dǎo)。
本文將結(jié)合我國(guó)醫(yī)療衛(wèi)生信息化發(fā)展現(xiàn)狀和自身數(shù)據(jù)特點(diǎn),基于多來(lái)源、異構(gòu)的海量醫(yī)療衛(wèi)生數(shù)據(jù),攻克醫(yī)療衛(wèi)生大數(shù)據(jù)分析技術(shù)難題,設(shè)計(jì)研究基于大數(shù)據(jù)的醫(yī)療衛(wèi)生信息服務(wù)平臺(tái),探索一條可行的技術(shù)路線(xiàn),實(shí)現(xiàn)衛(wèi)生管理部門(mén)對(duì)慢性病跟蹤監(jiān)測(cè)的科學(xué)量化分析,合理調(diào)配和利用醫(yī)療資源,實(shí)現(xiàn)療效對(duì)比和安全用藥指導(dǎo),提高醫(yī)療服務(wù)行業(yè)醫(yī)療服務(wù)水平,并指導(dǎo)居民改善生活習(xí)慣,進(jìn)行慢性病干預(yù),提供個(gè)性化的健康保健指導(dǎo),促進(jìn)居民健康自我管理。 2 基于大數(shù)據(jù)的醫(yī)療健康信息服務(wù)平臺(tái)的設(shè)計(jì)目標(biāo)基于大數(shù)據(jù)的醫(yī)療健康信息服務(wù)平臺(tái)將以多來(lái)源、異構(gòu)的海量醫(yī)療健康數(shù)據(jù)為基礎(chǔ),整合國(guó)家有關(guān)衛(wèi)生標(biāo)準(zhǔn)、藥品、氣象記錄以及其他權(quán)威機(jī)構(gòu)發(fā)布的行業(yè)相關(guān)數(shù)據(jù),突破醫(yī)療健康大數(shù)據(jù)所涉及的數(shù)據(jù)融合、存儲(chǔ)與處理、隱私保護(hù)、大數(shù)據(jù)挖掘與分析等關(guān)鍵技術(shù),設(shè)計(jì)開(kāi)發(fā)基于大數(shù)據(jù)的醫(yī)療健康信息服務(wù)平臺(tái),為居民、醫(yī)生、科研和健康管理機(jī)構(gòu)提供基于醫(yī)療大數(shù)據(jù)實(shí)時(shí)融合和深度應(yīng)用分析的業(yè)務(wù)支撐。 3.基于大數(shù)據(jù)的醫(yī)療健康信息服務(wù)平臺(tái)研究平臺(tái)總體架構(gòu)如圖1所示。 基于大數(shù)據(jù)的醫(yī)療信息服務(wù)平臺(tái) 醫(yī)療大數(shù)據(jù)應(yīng)用管理支撐層 醫(yī)療大數(shù)據(jù)分析層 醫(yī)療大數(shù)據(jù)存儲(chǔ)處理層 圖1 基于大數(shù)據(jù)的醫(yī)療信息服務(wù)平臺(tái)架構(gòu) 構(gòu)建醫(yī)療大數(shù)據(jù)資源層:研究多源異構(gòu)數(shù)據(jù)源對(duì)接技術(shù),開(kāi)發(fā)多源異構(gòu)數(shù)據(jù)源采集平臺(tái),通過(guò)融合處理,構(gòu)建涵蓋診療數(shù)據(jù)、藥品數(shù)據(jù)、健康數(shù)據(jù)、氣象環(huán)境數(shù)據(jù)、行業(yè)知識(shí)等的醫(yī)療大數(shù)據(jù)資源層。 發(fā)展醫(yī)療大數(shù)據(jù)存儲(chǔ)處理層:發(fā)展醫(yī)療健康大數(shù)據(jù)存儲(chǔ)處理層,實(shí)現(xiàn)大數(shù)據(jù)的采集、處理和存儲(chǔ)。利用分布式計(jì)算框架,實(shí)現(xiàn)對(duì)不同計(jì)算框架的統(tǒng)一資源調(diào)度管理技術(shù)和引擎。 發(fā)展醫(yī)療大數(shù)據(jù)分析層:分析層在存儲(chǔ)處理層的基礎(chǔ)上,構(gòu)建醫(yī)療健康大數(shù)據(jù)的挖掘、分析工具。
和知識(shí)庫(kù)。發(fā)展醫(yī)療大數(shù)據(jù)應(yīng)用支撐層:應(yīng)用支撐層將提供醫(yī)療大數(shù)據(jù)應(yīng)用支撐管理平臺(tái),對(duì)外提供注冊(cè)、封裝、調(diào)用、開(kāi)發(fā)等標(biāo)準(zhǔn)化服務(wù),打造邏輯隔離、獨(dú)立運(yùn)行的數(shù)據(jù)提供方和數(shù)據(jù)使用者的交互環(huán)境。發(fā)展醫(yī)療大數(shù)據(jù)應(yīng)用層:面向居民、公共衛(wèi)生、醫(yī)生、科研人員、醫(yī)務(wù)管理機(jī)構(gòu)開(kāi)展一系列應(yīng)用服務(wù)。3.1醫(yī)療大數(shù)據(jù)資源層醫(yī)療健康大數(shù)據(jù)由于業(yè)務(wù)的復(fù)雜性,涉及的資源種類(lèi)繁多,結(jié)構(gòu)復(fù)雜,主要包括:1.診療數(shù)據(jù)診療數(shù)據(jù)包括門(mén)診診斷數(shù)據(jù)、住院數(shù)據(jù)、處方數(shù)據(jù)、檢驗(yàn)檢查報(bào)告等,該類(lèi)數(shù)據(jù)主要來(lái)源于區(qū)域醫(yī)療系統(tǒng)、社區(qū)醫(yī)療系統(tǒng)、醫(yī)療機(jī)構(gòu)系統(tǒng)等,大部分?jǐn)?shù)據(jù)都是結(jié)構(gòu)化的,但在一些數(shù)據(jù)域(如出院小結(jié)、診斷說(shuō)明等),是非結(jié)構(gòu)化的文本信息。2.藥品數(shù)據(jù)藥品數(shù)據(jù)來(lái)源于公共醫(yī)療監(jiān)管部門(mén)。 數(shù)據(jù)通常為結(jié)構(gòu)化數(shù)據(jù),部分為非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量在幾GB左右,通常需要長(zhǎng)期保存。 3.健康數(shù)據(jù) 居民健康數(shù)據(jù)通過(guò)數(shù)據(jù)交換從區(qū)域醫(yī)療信息平臺(tái)、醫(yī)院、衛(wèi)生部門(mén)信息中心、第三方機(jī)構(gòu)等單位獲取,通常以流式方式更新數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)化程度較高。 4.醫(yī)學(xué)知識(shí)庫(kù) 醫(yī)學(xué)知識(shí)庫(kù)主要來(lái)源于權(quán)威數(shù)據(jù)源的專(zhuān)業(yè)公共知識(shí)庫(kù),或者通過(guò)醫(yī)療大數(shù)據(jù)分析建立的專(zhuān)有知識(shí)庫(kù)。
5.外部數(shù)據(jù) 外部數(shù)據(jù)主要指國(guó)家衛(wèi)生標(biāo)準(zhǔn)、藥品、環(huán)境、氣象等數(shù)據(jù),這些數(shù)據(jù)可以從互聯(lián)網(wǎng)上獲取,經(jīng)相關(guān)專(zhuān)家確認(rèn)后方可使用;不能從互聯(lián)網(wǎng)上直接獲取的,可通過(guò)權(quán)威機(jī)構(gòu)的開(kāi)放數(shù)據(jù)服務(wù)獲取。以上多源數(shù)據(jù)收集后,需要進(jìn)行有效的整合和處理,才能有序地組織起來(lái),形成醫(yī)療大數(shù)據(jù)的核心資源。 1.醫(yī)療大數(shù)據(jù)主數(shù)據(jù)管理 醫(yī)療信息系統(tǒng)各業(yè)務(wù)部門(mén)之間不可避免地存在資源冗余、描述不一致、數(shù)據(jù)項(xiàng)不完整等情況,因此急需建立集中式主數(shù)據(jù)管理,解決以下問(wèn)題: 1)醫(yī)療大數(shù)據(jù)的整合處理需要發(fā)揮統(tǒng)籌作用健康大數(shù)據(jù)管理與服務(wù),加強(qiáng)各業(yè)務(wù)部門(mén)管理信息系統(tǒng)與應(yīng)用系統(tǒng)的聯(lián)系; 2)避免數(shù)據(jù)來(lái)源不同、數(shù)據(jù)統(tǒng)計(jì)和口徑不一致,消除“信息孤島”,提供一致的數(shù)據(jù)基礎(chǔ); 3)降低軟硬件投入和系統(tǒng)維護(hù)成本。 提高基礎(chǔ)設(shè)施綜合利用率以及系統(tǒng)和數(shù)據(jù)的安全性。2.PIX(Patient Identity Cross Index)醫(yī)療衛(wèi)生信息處理與集成,需要解決不同醫(yī)療機(jī)構(gòu)、不同信息系統(tǒng)間的數(shù)據(jù)共享和身份識(shí)別問(wèn)題。國(guó)際上,IHE組織提出了“跨企業(yè)文檔共享(XDS)”集成規(guī)范。XDS的基本思想是利用EBXML Registry架構(gòu)存儲(chǔ)醫(yī)療文檔以供共享。要實(shí)現(xiàn)共享,首先要解決不同信息系統(tǒng)中同一患者的患者識(shí)別號(hào)(PID)的關(guān)聯(lián)問(wèn)題。
為此,IHE專(zhuān)門(mén)定義了“患者識(shí)別交叉引用(PIX)”集成規(guī)范,XDS也建議使用PIX來(lái)管理患者識(shí)別號(hào)的關(guān)聯(lián),PIX框架如圖2所示。圖2 PIX框架不旨在 3.融合診療事件,形成醫(yī)療事件時(shí)間序列 時(shí)間序列分析直接以事物在不同時(shí)間的狀態(tài)所形成的數(shù)據(jù)為對(duì)象,通過(guò)分析時(shí)間序列數(shù)據(jù)的特征來(lái)揭示事物發(fā)展變化的規(guī)律。在做分析之前,需要先將醫(yī)療數(shù)據(jù)按照時(shí)間序列進(jìn)行整理和集成。? 45] ?
時(shí)序融合是按照居民醫(yī)療健康數(shù)據(jù)產(chǎn)生的時(shí)間,按照元數(shù)據(jù)規(guī)范對(duì)數(shù)據(jù)進(jìn)行整合,形成覆蓋居民全生命周期的完整醫(yī)療健康數(shù)據(jù)集。對(duì)于時(shí)序融合,首先要求數(shù)據(jù)覆蓋面廣,覆蓋居民所有的醫(yī)療健康行為;另一方面要求數(shù)據(jù)采集及時(shí),能夠快速獲取數(shù)據(jù);最后要求數(shù)據(jù)的分析與融合完整。3.2 醫(yī)療大數(shù)據(jù)存儲(chǔ)與處理層針對(duì)不同的數(shù)據(jù)源、不同的數(shù)據(jù)格式、不同的數(shù)據(jù)邏輯關(guān)系,醫(yī)療健康大數(shù)據(jù)存儲(chǔ)處理平臺(tái)提供了實(shí)時(shí)數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)存儲(chǔ)、HDFS文件存儲(chǔ)等多種專(zhuān)用的存儲(chǔ)服務(wù)和系統(tǒng),保證數(shù)據(jù)的高效存儲(chǔ)和有效管理。存儲(chǔ)層還提供了統(tǒng)一的數(shù)據(jù)訪(fǎng)問(wèn)和管理工具。醫(yī)療大數(shù)據(jù)在邏輯、存儲(chǔ)、訪(fǎng)問(wèn)應(yīng)用等方面都有其特殊性。 具體來(lái)說(shuō),醫(yī)療大數(shù)據(jù)來(lái)源多樣:醫(yī)療信息通常由區(qū)域醫(yī)療、社區(qū)醫(yī)療系統(tǒng)提供,為格式化數(shù)據(jù),每日更新;健康監(jiān)測(cè)數(shù)據(jù)需要面臨海量并發(fā)監(jiān)測(cè)采集數(shù)據(jù)的提交,數(shù)據(jù)規(guī)模小但數(shù)量龐大、并發(fā)性強(qiáng),需要快速及時(shí)處理;影像數(shù)據(jù)數(shù)據(jù)量巨大,但數(shù)量相對(duì)較少,不同的數(shù)據(jù)需要采用不同的處理方式,提高處理效率。平臺(tái)構(gòu)建了多框架融合計(jì)算調(diào)度引擎,在此引擎上提供離線(xiàn)批量計(jì)算、在線(xiàn)實(shí)時(shí)分析計(jì)算、流式計(jì)算等多種計(jì)算框架的集成調(diào)用。
廣——1廣——] dNode dNode 廠(chǎng)—]廠(chǎng)—] rNode 懺節(jié)點(diǎn) 氟 I. . . . . . . . . . . 一J I. . . . . . . . . eJ 叵茫圈巨圈叵圍圈圜圈圜圈圜圈圜圈圖 3 多框架融合管理引擎 多框架融合管理引擎對(duì)集群資源進(jìn)行統(tǒng)一管理,通過(guò)虛擬化形成 CPU、內(nèi)存的資源池。所有計(jì)算框架都需要向多框架融合管理引擎申請(qǐng)才能獲得資源,不同用戶(hù)申請(qǐng)的資源在邏輯上是隔離的,所有申請(qǐng)的資源都會(huì)受到多框架融合管理引擎的監(jiān)管,當(dāng)資源故障或者負(fù)載過(guò)高時(shí),能夠動(dòng)態(tài)分配、調(diào)整資源,提高利用效率。 1. 離線(xiàn)批量計(jì)算方式(Map~Reduce) 利用離線(xiàn)批量計(jì)算框架,通過(guò)Map和Reduce操作,可以提供醫(yī)療健康數(shù)據(jù)的離線(xiàn)批量分析服務(wù)。 2、在線(xiàn)實(shí)時(shí)分析計(jì)算框架(Spark) 在線(xiàn)實(shí)時(shí)分析計(jì)算框架采用內(nèi)存分布式數(shù)據(jù)集分析技術(shù),結(jié)合平臺(tái)提供的實(shí)時(shí)數(shù)據(jù)庫(kù),提供交互式查詢(xún)服務(wù)。在線(xiàn)實(shí)時(shí)分析計(jì)算框架引入了內(nèi)存集群計(jì)算的概念,將數(shù)據(jù)集緩存在內(nèi)存中,縮短訪(fǎng)問(wèn)時(shí)延。在線(xiàn)實(shí)時(shí)分析計(jì)算框架還引入了一個(gè)抽象概念,叫做彈性分布式數(shù)據(jù)集(RDD)。
RDD是分布在一組節(jié)點(diǎn)中的只讀對(duì)象的集合,這些集合具有彈性,如果數(shù)據(jù)集丟失,可以重建。3.流式計(jì)算框架(Storm)從數(shù)據(jù)源特性來(lái)看,流式計(jì)算框架與Map-Reduce的明顯區(qū)別在于流式計(jì)算框架的數(shù)據(jù)源是動(dòng)態(tài)的,即收到后逐條處理。面對(duì)不斷更新的醫(yī)療大數(shù)據(jù),流式計(jì)算框架能夠快速、高效地處理相關(guān)數(shù)據(jù)。3.3醫(yī)療大數(shù)據(jù)分析層在醫(yī)療大數(shù)據(jù)分析層將重點(diǎn)解決兩個(gè)層次的分析工作:1)針對(duì)醫(yī)療大數(shù)據(jù)分析的分析挖掘,優(yōu)化改造傳統(tǒng)通用數(shù)據(jù)挖掘工具并實(shí)現(xiàn)并行化,在醫(yī)學(xué)領(lǐng)域本體的支持下,為醫(yī)療大數(shù)據(jù)應(yīng)用服務(wù)提供專(zhuān)用的分析模型庫(kù);2)在挖掘利用醫(yī)療大數(shù)據(jù)的基礎(chǔ)上,輔以領(lǐng)域知識(shí)構(gòu)建技術(shù),建立生物醫(yī)學(xué)本體知識(shí)庫(kù)模型。 1.面向醫(yī)療大數(shù)據(jù)分析挖掘 1)利用特定人群挖掘、熱點(diǎn)識(shí)別模型、多標(biāo)簽分類(lèi)、直接分類(lèi)、效用序列模式挖掘、相關(guān)性分析、時(shí)間序列演化分析、不均衡分析及通用醫(yī)學(xué)統(tǒng)計(jì)分析算法對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行分析,通過(guò)分布式計(jì)算等技術(shù)手段,在不犧牲挖掘效率和挖掘質(zhì)量的前提下,從算法并行優(yōu)化的角度提高計(jì)算效率。 2)利用Bloom filter、哈希等技術(shù)解決算法優(yōu)化時(shí)可能出現(xiàn)的數(shù)據(jù)維數(shù)災(zāi)難問(wèn)題,實(shí)現(xiàn)快速數(shù)據(jù)查找和比對(duì),降低計(jì)算內(nèi)存消耗。 圓南院
2024-06-26 17:47
2024-06-26 16:40
2024-06-26 14:53