應(yīng)用案例 | 數(shù)據(jù)分析+醫(yī)學(xué)——讓疾病無所遁形

2023-10-17 09:36:04 來源: 全球加盟網(wǎng) 有234人參與
  • 經(jīng)營范圍:教育
  • 門店數(shù)量:0家
  • 單店投資額:1~5
企業(yè)已備案
企業(yè)已認證
成交領(lǐng)紅包

從古至今,疾病的防預(yù)和控制始終是一個重大的挑戰(zhàn)。隨著科技的不斷進步,數(shù)據(jù)分析逐漸成為醫(yī)學(xué)健康領(lǐng)域中不可或缺的工具。數(shù)據(jù)分析不僅能幫助醫(yī)學(xué)專業(yè)人員更好地理解疾病的模式和趨勢,還可以協(xié)助患者對自己的健康狀況進行更加準(zhǔn)確的判斷。那么數(shù)據(jù)分析是如何幫助醫(yī)學(xué)人員進行病情診斷的呢?我們通過一個具體案例一起來探討。

數(shù)據(jù)分析師帶你走進醫(yī)學(xué)前線

近年來癌癥已經(jīng)成為全球很大的健康問題,高居所有死因的第1位。其中乳腺癌發(fā)病率呈逐年上升趨勢,躍居女性惡性瘤子的第1位(據(jù)估計已接近0.03%,即全球每1萬人就有接近3人患有乳腺癌)。但是,乳腺癌早期一般沒有明顯癥狀,多數(shù)情況下需經(jīng)過多次、多項檢查才可能診斷出結(jié)果?;诖耍覀兛梢岳脵C器學(xué)習(xí)模型對病人的情況進行預(yù)測,及時檢測出早期癥狀,減少癌癥的致死率。

首先,我們來看此案例的數(shù)據(jù)情況(如下圖),原始數(shù)據(jù)樣本總數(shù)961個,字段包含序號、BIRADS等級、年齡、腫塊形狀、腫塊邊緣、腫塊密度、嚴重度。

遵循數(shù)據(jù)分析流程的個步驟,我們對案例進行逐步分析:

PART

01

數(shù)據(jù)探索和預(yù)處理

數(shù)據(jù)探索:

在這個階段,我們首先對數(shù)據(jù)進行描述性統(tǒng)計,通過描述性統(tǒng)計結(jié)果查看數(shù)據(jù)形態(tài)以及缺失值與異常值的情況。描述性統(tǒng)計結(jié)果如下:

數(shù)據(jù)預(yù)處理:

數(shù)據(jù)預(yù)處理需要根據(jù)描述性統(tǒng)計的結(jié)果以及后面模型對數(shù)據(jù)集的要求來進行處理,所以我們對數(shù)據(jù)進行了如下處理:

(1)缺失值處理:使用數(shù)據(jù)加工模塊對缺失值進行刪除。

(2)連續(xù)型變量離散化:對年齡字段使用變量離散化算法,降低規(guī)則復(fù)雜度,離散為三類,0類年齡段為0-44歲,1類年齡段為45-70歲,2類年齡段為71-100歲。

PART

02

模型構(gòu)建和評估

在這個階段,我們需要明確解決目標(biāo)問題會用到哪些算法以及那種算法。確定算法后就可以著手模型的搭建,Datahoop平臺簡化了我們構(gòu)建算法的步驟,可以直接將數(shù)據(jù)帶入模型算法中,設(shè)置參數(shù)就可以進行模型訓(xùn)練與調(diào)優(yōu)。

頭一個模型我們選擇邏輯回歸模型。邏輯回歸模型的數(shù)學(xué)背景相對簡單,可以直觀地表示因變量和自變量之間的關(guān)系,易于理解和解釋。首先我們將指定的特征與標(biāo)簽給到模型,并指定迭代次數(shù)100次來進行模型訓(xùn)練(下圖為邏輯回歸算法模型的建立過程)。

通過結(jié)果展示發(fā)現(xiàn)模型訓(xùn)練集acc=81%,測試集acc=80%,該模型已經(jīng)可以較為準(zhǔn)確的預(yù)測乳腺癌,但是基于模型的復(fù)雜程度,準(zhǔn)確率已經(jīng)很難提升。

第二個模型我們選擇GBDT(梯度提升決策樹)模型。GBDT模型可以自動捕捉變量之間的非線性關(guān)系和交互效應(yīng),且無需進行特殊的特征工程就可以進行高度準(zhǔn)確的預(yù)測。

GBDT模型的建立過程與邏輯回歸模型一樣,將指定的特征與標(biāo)簽給到模型,并指定迭代次數(shù)100次來進行模型訓(xùn)練,發(fā)現(xiàn)模型訓(xùn)練集acc=85%,測試集acc=82%,模型有點過擬合,需要調(diào)整迭代次數(shù)或者學(xué)習(xí)率。在此我們選擇調(diào)整迭代次數(shù),當(dāng)?shù)螖?shù)為30次時模型比較好,調(diào)整后的訓(xùn)練集acc=85%,測試集acc=86%。(模型結(jié)果如下圖所示)

PART

03

模型解讀與應(yīng)用

通過模型對比,發(fā)現(xiàn)GBDT的準(zhǔn)確率更高,訓(xùn)練集acc=85%,測試集acc=86%。但是在疾病預(yù)測業(yè)務(wù)中,我們并不只關(guān)注模型的準(zhǔn)確率,而是更加關(guān)注模型的準(zhǔn)確率Precision(準(zhǔn)確率Precision就是在所有樣本當(dāng)中,惡性瘤子有沒有被全部檢測出來,也可以理解為模型對1類樣本的辨別能力強不強。)對比兩個模型的準(zhǔn)確率我們發(fā)現(xiàn)GBDT模型的準(zhǔn)確率高于邏輯回歸模型,說明GBDT模型識別惡性瘤子的能力比邏輯回歸模型好。

在實際醫(yī)學(xué)業(yè)務(wù)中,我們可以把GBDT模型嵌入到公眾號里,病人可以根據(jù)提示輸入病情信息獲得初步診斷,輔助醫(yī)生結(jié)合其他檢查結(jié)果判斷需不需要進行下一步檢查,以更好的確定具體病癥,及早采取措施。


通過上述案例我們不難發(fā)現(xiàn)數(shù)據(jù)分析在的疾病監(jiān)測中具有很大的應(yīng)用潛力。然而本案例只體現(xiàn)了數(shù)據(jù)分析在疾病的早期診斷和預(yù)測方面的效用。在個性化治理方面,數(shù)據(jù)分析可以更好地監(jiān)測和評估藥物的成效和副作用;在實時監(jiān)測和警報方面,數(shù)據(jù)分析可以用于開發(fā)智能警報系統(tǒng),及時通知醫(yī)護人員病人的異常情況……所以數(shù)據(jù)分析正成為我們戰(zhàn)勝疾病的有力工具。通過合理利用這一工具,我們可以構(gòu)建一個更加健康、安全和幸福的社會。

CPDA數(shù)據(jù)分析師簡介

公司成立于2003年,致力于為企業(yè)培養(yǎng)數(shù)字化轉(zhuǎn)型的數(shù)據(jù)分析師人才,旗下“CPDA數(shù)據(jù)分析師”認證培訓(xùn),是經(jīng)國家工信部教育與考試中心和中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會授權(quán)指定的培訓(xùn)品牌。

為了能更好地落實國家政策,支持國家的產(chǎn)業(yè)改革,培養(yǎng)出更多更出色的數(shù)據(jù)分析人才,特面向全國招募培訓(xùn)授權(quán)中心。

CPDA數(shù)據(jù)分析師證書:

中國數(shù)據(jù)分析行業(yè)證書,由中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會頒發(fā),考取CPDA證書是對個人執(zhí)業(yè)能力的肯定,與市場上的其他證書有著本質(zhì)區(qū)別。

特色授課方式:

通過20年的課程研發(fā)和實踐,形成符合數(shù)據(jù)分析學(xué)科特性和學(xué)員學(xué)習(xí)習(xí)慣的組合授課方式:70+小時視頻網(wǎng)課+6天面授+ 2門選修課+近1000道模擬習(xí)題+Datahoop大數(shù)據(jù)分析平臺工具+海量微課資源供學(xué)員不斷提升,報名成為CPDA學(xué)員后,您將享有上述所有課程和工具。

中國商業(yè)聯(lián)合會數(shù)據(jù)分析專業(yè)委員會成立于2008年4月,是經(jīng)國有資產(chǎn)監(jiān)督管理委員會審核同意、中華人民共和國民政部正式批準(zhǔn)和登記的中國數(shù)據(jù)分析行業(yè)組織。以數(shù)據(jù)分析師及數(shù)據(jù)分析師事務(wù)所等從事與數(shù)據(jù)分析行業(yè)相關(guān)的團體與個人自愿組成的全國性數(shù)據(jù)分析行業(yè)組織,是中國較早堅持發(fā)展專業(yè)型、靠專業(yè)推動市場的行業(yè)組織。

標(biāo)簽:
環(huán)亞楓葉藝術(shù)教育加盟
  • 1091 關(guān)注加盟
  • 13632 咨詢加盟

注冊會員-關(guān)注品牌-線下推薦-深層交流-確定成交 找項目就是這么高效

注  冊
猜你喜歡
  
  • 自然稻米線
  • 串意十足燒烤店
  • 東方童畫少兒美術(shù)
  • 貝克漢堡西餐小吃
分享到:
下載app
微信掃一掃
在線咨詢
回到頂部
下載全球加盟網(wǎng)APP
直接溝通,讓加盟和選址更輕松