欄目類: |
全部文章 |
原創(chuàng) |
網(wǎng)評(píng) |
視頻 |
行業(yè)新聞 |
投票調(diào)查 |
網(wǎng)友原創(chuàng) |
養(yǎng)生名人 |
有什么別有病
語料庫 AI診療的基石

[事件] 作者 :byb.cn 日期:2026-5-8 00:01
【byb.cn 】(來源:生命時(shí)報(bào))語料庫,AI診療的基石 亟需解決碎片化和標(biāo)準(zhǔn)不統(tǒng)一問題
什么是醫(yī)療健康語料庫?深圳大學(xué)附屬華南醫(yī)院院長吳松告訴《生命時(shí)報(bào)》記者,籠統(tǒng)來說,這是匯集了電子病歷、醫(yī)學(xué)影像、臨床診療路徑,以及基因組學(xué)、藥物研發(fā)、公共衛(wèi)生監(jiān)測(cè)等各類信息的一個(gè)數(shù)據(jù)庫。但這些數(shù)據(jù)不是簡單地堆在一起,而是進(jìn)行系統(tǒng)性采集、清洗、脫敏(指把能定位到“某個(gè)人”的信息,處理成“看不出是誰”)和結(jié)構(gòu)化整理后,形成的領(lǐng)域?qū)S脭?shù)據(jù)資產(chǎn)體系。
“如果把醫(yī)療AI比作一名學(xué)習(xí)型醫(yī)生,醫(yī)療健康語料庫就是它的‘學(xué)?!汀R床經(jīng)驗(yàn)積累庫’。沒有高質(zhì)量的語料,AI無從學(xué)習(xí),更談不上精準(zhǔn)應(yīng)用。”吳松說。
在AI輔助診療方面,高質(zhì)量的臨床語料庫可以支撐AI系統(tǒng)對(duì)多種影像資料進(jìn)行秒級(jí)分析,展現(xiàn)出較高準(zhǔn)確性。以眼底病變識(shí)別為例,部分研究顯示,其表現(xiàn)可與專科醫(yī)生相當(dāng);但在肺結(jié)節(jié)鑒別等復(fù)雜任務(wù)上,現(xiàn)階段仍主要作為輔助工具。
新藥研發(fā)方面,基于真實(shí)世界數(shù)據(jù)構(gòu)建的AI模型,可以將化合物篩選、毒性預(yù)測(cè)等基礎(chǔ)科研的工作周期從數(shù)年壓縮至數(shù)天,大幅降低研發(fā)成本。
健康管理方面,深圳大學(xué)附屬華南醫(yī)院信息部助理主任楊凱介紹,在個(gè)人基因組、電子健康檔案、可穿戴設(shè)備等數(shù)據(jù)的基礎(chǔ)上,可以構(gòu)建起真正意義上的“數(shù)字孿生體”,無差別反映一個(gè)人的生理狀況,從而實(shí)現(xiàn)慢病風(fēng)險(xiǎn)的提前預(yù)警,推動(dòng)醫(yī)療模式從“有病治病”向“未病先防”轉(zhuǎn)變。
醫(yī)療健康語料庫建設(shè),已在部分地區(qū)有所實(shí)踐。2024年11月,上海發(fā)布了全市首個(gè)衛(wèi)生健康行業(yè)語料庫;2025年6月,深圳市羅湖區(qū)啟動(dòng)“羅湖醫(yī)療語料中心”建設(shè)項(xiàng)目,將整合市區(qū)兩級(jí)醫(yī)療機(jī)構(gòu)的病理診斷、超聲影像、放射影像等7類場(chǎng)景數(shù)據(jù),整合好的語料庫會(huì)面向羅湖區(qū)內(nèi)AI企業(yè)開放,最終形成產(chǎn)學(xué)研綜合應(yīng)用的閉環(huán)生態(tài)。
“我們目前正依托數(shù)據(jù)庫架構(gòu),建立覆蓋全院30余個(gè)科室、200余類核心數(shù)據(jù)字段的統(tǒng)一語義標(biāo)準(zhǔn)體系。這個(gè)過程既是為了在院內(nèi)完善AI應(yīng)用,也為將來參與區(qū)域性,甚至全國性語料庫共建打下基礎(chǔ)?!鄙钲诖髮W(xué)附屬華南醫(yī)院信息部主任歐陽杰說。
當(dāng)醫(yī)療健康語料庫真正走向成熟,醫(yī)患體驗(yàn)將會(huì)獲得質(zhì)的提升。對(duì)患者而言,個(gè)性化的AI健康助手可以提前預(yù)警慢病風(fēng)險(xiǎn),提供針對(duì)性管理方案;偏遠(yuǎn)地區(qū)居民通過部署到本地的AI輔助工具,有望獲得三甲醫(yī)院級(jí)別的診斷建議;罕見病患者的確診等待時(shí)間,也可能從數(shù)年縮短至數(shù)月甚至數(shù)周。
對(duì)醫(yī)生而言,臨床決策支持系統(tǒng)將成為可靠的“智囊團(tuán)”,不僅有數(shù)百萬份高質(zhì)量病歷支撐,還能自動(dòng)校驗(yàn)診斷邏輯、提示遺漏檢查、推薦最優(yōu)方案。尤其是處在經(jīng)驗(yàn)積累期的年輕醫(yī)生,能大幅縮短成長周期,誤診漏診率有望顯著降低。
但在吳松看來,整個(gè)行業(yè)還處于早期發(fā)展階段,各地語料庫的建設(shè)基本是初期版本,碎片化、標(biāo)準(zhǔn)不統(tǒng)一的問題突出,能真正形成大規(guī)模產(chǎn)業(yè)化應(yīng)用的案例尚不多見。主攻AI醫(yī)療的企業(yè)普遍反映“有模型、缺數(shù)據(jù)”,拿不到高質(zhì)量、合規(guī)、有標(biāo)注的基礎(chǔ)數(shù)據(jù),成為阻礙行業(yè)突破的核心瓶頸之一。
統(tǒng)一入庫標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)質(zhì)量。語料庫僅有海量數(shù)據(jù)還不夠,標(biāo)注是否一致、準(zhǔn)確才是關(guān)鍵。當(dāng)前醫(yī)療大模型常出現(xiàn)“幻覺”問題,給出的診斷看起來像模像樣,實(shí)際卻經(jīng)不起推敲,甚至出現(xiàn)錯(cuò)誤。這主要是因?yàn)楝F(xiàn)有評(píng)估體系中,醫(yī)療大模型只盯著詞匯匹配度,對(duì)醫(yī)學(xué)邏輯是否嚴(yán)密判斷不準(zhǔn)。這就需要在早期構(gòu)建語料庫時(shí),增強(qiáng)檢索內(nèi)容與知識(shí)圖譜的關(guān)聯(lián),給大模型配上可查證的“知識(shí)字典”,形成可靠推理,從源頭抑制“幻覺”。
解決數(shù)據(jù)共享共用矛盾。醫(yī)療數(shù)據(jù)涉及核心隱私,法規(guī)要求嚴(yán)格,但AI訓(xùn)練又需要大量數(shù)據(jù),二者之間的矛盾若不能妥善解決,AI醫(yī)療的發(fā)展將舉步維艱。據(jù)介紹,當(dāng)前的技術(shù)探索主要圍繞三個(gè)方向:一是聯(lián)邦學(xué)習(xí),讓模型“移動(dòng)”而非數(shù)據(jù)集中,實(shí)現(xiàn)數(shù)據(jù)“可用不可見”;二是在數(shù)據(jù)脫敏基礎(chǔ)上強(qiáng)化加密保護(hù);三是實(shí)行數(shù)據(jù)信托機(jī)制,支持患者授權(quán)管理,實(shí)現(xiàn)全生命周期安全防護(hù)。
培養(yǎng)醫(yī)學(xué)、信息學(xué)交叉人才。語料庫建設(shè)需要兼具臨床知識(shí)和數(shù)據(jù)工程能力的復(fù)合型人才,其匱乏可謂當(dāng)前最難突破的瓶頸。吳松認(rèn)為,教育主管部門應(yīng)與衛(wèi)生健康系統(tǒng)進(jìn)一步協(xié)同,將醫(yī)工交叉人才培養(yǎng)納入國家醫(yī)學(xué)教育改革的整體布局,形成政策層面的制度性支撐。
“數(shù)據(jù)是新時(shí)代醫(yī)學(xué)研究的基礎(chǔ)。讓優(yōu)質(zhì)醫(yī)療經(jīng)驗(yàn)成為可復(fù)制的數(shù)字資產(chǎn),正是語料庫建設(shè)的核心價(jià)值所在?!眳撬烧f,“我們期待在政策層面打通制度通道,讓更多醫(yī)院有動(dòng)力、有能力、有保障地投身這場(chǎng)數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療革命,共同推動(dòng)醫(yī)療健康產(chǎn)業(yè)進(jìn)入更有質(zhì)量的新階段?!?
受訪專家:
深圳大學(xué)附屬華南醫(yī)院院長 吳 松 □信息部主任 歐陽杰 □信息部助理主任 楊 凱
本報(bào)記者 喬 芮《生命時(shí)報(bào)》 2026-04-03 第01981期 第5版
什么是醫(yī)療健康語料庫?深圳大學(xué)附屬華南醫(yī)院院長吳松告訴《生命時(shí)報(bào)》記者,籠統(tǒng)來說,這是匯集了電子病歷、醫(yī)學(xué)影像、臨床診療路徑,以及基因組學(xué)、藥物研發(fā)、公共衛(wèi)生監(jiān)測(cè)等各類信息的一個(gè)數(shù)據(jù)庫。但這些數(shù)據(jù)不是簡單地堆在一起,而是進(jìn)行系統(tǒng)性采集、清洗、脫敏(指把能定位到“某個(gè)人”的信息,處理成“看不出是誰”)和結(jié)構(gòu)化整理后,形成的領(lǐng)域?qū)S脭?shù)據(jù)資產(chǎn)體系。
“如果把醫(yī)療AI比作一名學(xué)習(xí)型醫(yī)生,醫(yī)療健康語料庫就是它的‘學(xué)?!汀R床經(jīng)驗(yàn)積累庫’。沒有高質(zhì)量的語料,AI無從學(xué)習(xí),更談不上精準(zhǔn)應(yīng)用。”吳松說。
在AI輔助診療方面,高質(zhì)量的臨床語料庫可以支撐AI系統(tǒng)對(duì)多種影像資料進(jìn)行秒級(jí)分析,展現(xiàn)出較高準(zhǔn)確性。以眼底病變識(shí)別為例,部分研究顯示,其表現(xiàn)可與專科醫(yī)生相當(dāng);但在肺結(jié)節(jié)鑒別等復(fù)雜任務(wù)上,現(xiàn)階段仍主要作為輔助工具。
新藥研發(fā)方面,基于真實(shí)世界數(shù)據(jù)構(gòu)建的AI模型,可以將化合物篩選、毒性預(yù)測(cè)等基礎(chǔ)科研的工作周期從數(shù)年壓縮至數(shù)天,大幅降低研發(fā)成本。
健康管理方面,深圳大學(xué)附屬華南醫(yī)院信息部助理主任楊凱介紹,在個(gè)人基因組、電子健康檔案、可穿戴設(shè)備等數(shù)據(jù)的基礎(chǔ)上,可以構(gòu)建起真正意義上的“數(shù)字孿生體”,無差別反映一個(gè)人的生理狀況,從而實(shí)現(xiàn)慢病風(fēng)險(xiǎn)的提前預(yù)警,推動(dòng)醫(yī)療模式從“有病治病”向“未病先防”轉(zhuǎn)變。
醫(yī)療健康語料庫建設(shè),已在部分地區(qū)有所實(shí)踐。2024年11月,上海發(fā)布了全市首個(gè)衛(wèi)生健康行業(yè)語料庫;2025年6月,深圳市羅湖區(qū)啟動(dòng)“羅湖醫(yī)療語料中心”建設(shè)項(xiàng)目,將整合市區(qū)兩級(jí)醫(yī)療機(jī)構(gòu)的病理診斷、超聲影像、放射影像等7類場(chǎng)景數(shù)據(jù),整合好的語料庫會(huì)面向羅湖區(qū)內(nèi)AI企業(yè)開放,最終形成產(chǎn)學(xué)研綜合應(yīng)用的閉環(huán)生態(tài)。
“我們目前正依托數(shù)據(jù)庫架構(gòu),建立覆蓋全院30余個(gè)科室、200余類核心數(shù)據(jù)字段的統(tǒng)一語義標(biāo)準(zhǔn)體系。這個(gè)過程既是為了在院內(nèi)完善AI應(yīng)用,也為將來參與區(qū)域性,甚至全國性語料庫共建打下基礎(chǔ)?!鄙钲诖髮W(xué)附屬華南醫(yī)院信息部主任歐陽杰說。
當(dāng)醫(yī)療健康語料庫真正走向成熟,醫(yī)患體驗(yàn)將會(huì)獲得質(zhì)的提升。對(duì)患者而言,個(gè)性化的AI健康助手可以提前預(yù)警慢病風(fēng)險(xiǎn),提供針對(duì)性管理方案;偏遠(yuǎn)地區(qū)居民通過部署到本地的AI輔助工具,有望獲得三甲醫(yī)院級(jí)別的診斷建議;罕見病患者的確診等待時(shí)間,也可能從數(shù)年縮短至數(shù)月甚至數(shù)周。
對(duì)醫(yī)生而言,臨床決策支持系統(tǒng)將成為可靠的“智囊團(tuán)”,不僅有數(shù)百萬份高質(zhì)量病歷支撐,還能自動(dòng)校驗(yàn)診斷邏輯、提示遺漏檢查、推薦最優(yōu)方案。尤其是處在經(jīng)驗(yàn)積累期的年輕醫(yī)生,能大幅縮短成長周期,誤診漏診率有望顯著降低。
但在吳松看來,整個(gè)行業(yè)還處于早期發(fā)展階段,各地語料庫的建設(shè)基本是初期版本,碎片化、標(biāo)準(zhǔn)不統(tǒng)一的問題突出,能真正形成大規(guī)模產(chǎn)業(yè)化應(yīng)用的案例尚不多見。主攻AI醫(yī)療的企業(yè)普遍反映“有模型、缺數(shù)據(jù)”,拿不到高質(zhì)量、合規(guī)、有標(biāo)注的基礎(chǔ)數(shù)據(jù),成為阻礙行業(yè)突破的核心瓶頸之一。
統(tǒng)一入庫標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)質(zhì)量。語料庫僅有海量數(shù)據(jù)還不夠,標(biāo)注是否一致、準(zhǔn)確才是關(guān)鍵。當(dāng)前醫(yī)療大模型常出現(xiàn)“幻覺”問題,給出的診斷看起來像模像樣,實(shí)際卻經(jīng)不起推敲,甚至出現(xiàn)錯(cuò)誤。這主要是因?yàn)楝F(xiàn)有評(píng)估體系中,醫(yī)療大模型只盯著詞匯匹配度,對(duì)醫(yī)學(xué)邏輯是否嚴(yán)密判斷不準(zhǔn)。這就需要在早期構(gòu)建語料庫時(shí),增強(qiáng)檢索內(nèi)容與知識(shí)圖譜的關(guān)聯(lián),給大模型配上可查證的“知識(shí)字典”,形成可靠推理,從源頭抑制“幻覺”。
解決數(shù)據(jù)共享共用矛盾。醫(yī)療數(shù)據(jù)涉及核心隱私,法規(guī)要求嚴(yán)格,但AI訓(xùn)練又需要大量數(shù)據(jù),二者之間的矛盾若不能妥善解決,AI醫(yī)療的發(fā)展將舉步維艱。據(jù)介紹,當(dāng)前的技術(shù)探索主要圍繞三個(gè)方向:一是聯(lián)邦學(xué)習(xí),讓模型“移動(dòng)”而非數(shù)據(jù)集中,實(shí)現(xiàn)數(shù)據(jù)“可用不可見”;二是在數(shù)據(jù)脫敏基礎(chǔ)上強(qiáng)化加密保護(hù);三是實(shí)行數(shù)據(jù)信托機(jī)制,支持患者授權(quán)管理,實(shí)現(xiàn)全生命周期安全防護(hù)。
培養(yǎng)醫(yī)學(xué)、信息學(xué)交叉人才。語料庫建設(shè)需要兼具臨床知識(shí)和數(shù)據(jù)工程能力的復(fù)合型人才,其匱乏可謂當(dāng)前最難突破的瓶頸。吳松認(rèn)為,教育主管部門應(yīng)與衛(wèi)生健康系統(tǒng)進(jìn)一步協(xié)同,將醫(yī)工交叉人才培養(yǎng)納入國家醫(yī)學(xué)教育改革的整體布局,形成政策層面的制度性支撐。
“數(shù)據(jù)是新時(shí)代醫(yī)學(xué)研究的基礎(chǔ)。讓優(yōu)質(zhì)醫(yī)療經(jīng)驗(yàn)成為可復(fù)制的數(shù)字資產(chǎn),正是語料庫建設(shè)的核心價(jià)值所在?!眳撬烧f,“我們期待在政策層面打通制度通道,讓更多醫(yī)院有動(dòng)力、有能力、有保障地投身這場(chǎng)數(shù)據(jù)驅(qū)動(dòng)的醫(yī)療革命,共同推動(dòng)醫(yī)療健康產(chǎn)業(yè)進(jìn)入更有質(zhì)量的新階段?!?
相關(guān)文章 瀏覽更多相關(guān)文章>>
- [事件]長期吃辣影響長個(gè)兒06-24
- [事件]胖老人肌肉流失快06-24
- [事件]培養(yǎng)幽默感能防病06-24
- [事件]少摔一次 多省一分06-23
- [事件]吃飯喜好與36種病相關(guān)06-23
- [事件]打降脂針有嚴(yán)格限制06-23
- [事件]心梗、心臟驟停和心源性猝死...06-22
- [事件]心碎綜合征是心尖“罷工”06-22
最新文章
- [事件]長期吃辣影響長個(gè)兒06-24
- [事件]胖老人肌肉流失快06-24
- [事件]培養(yǎng)幽默感能防病06-24
- [事件]少摔一次 多省一分06-23
- [事件]吃飯喜好與36種病相關(guān)06-23
- [事件]打降脂針有嚴(yán)格限制06-23
- [書評(píng)]徐說內(nèi)經(jīng)靈樞05根結(jié)之用針...06-22
- [事件]心梗、心臟驟停和心源性猝死...06-22

