您的位置:首頁>生活家 >

從知識圖譜的“相信而看見”,到ChatGPT的“看見而相信

來源:財訊界  

ChatGPT的爆火博取了億萬人的眼球,作為醫療&自然語言處理(NLP)的從業者,感慨大型語言模型(LLM)發展讓很多我們原本不敢想的事,竟然被一種簡潔的方式來完成了。

對于億萬網友來講,ChatGPT是一個無所不能的對話機器人,可以回答問題,可以寫文章、改bug。對于NLP從業者,看到的更多是LLM對海量互聯網信息的解析、總結、歸納,看到的是一種以千億參數規模存在的新的知識存儲形式,看到的是概率計算之外逐漸顯現的模型推理能力,在用戶交互層面,輸出結果上也可以按照用戶預期中的格式進行展現。

phpx9tpMw

模型能力和應用效果的提升,極大的震撼和改變了NLP領域。而這一切是如何實現的呢?在醫療領域應用會有哪些優勢和難點呢?我們先不妨從左手醫生打造AI Doctor說起。

左醫AI Doctor技術演進

在2016年左手醫生從知識圖譜切入醫療AI領域。最初希望打造一款程序來解決患者醫療健康的各類詢問,不同于搜索引擎,我們認為患者由于自身的醫療知識匱乏,較難準確、完善地描述其病情,因此我們最終選擇打造一個對話機器人(Chatbot)來解決這個問題。當時,醫療bot的行業前輩主要為Babylon Health和Ada Health。

在后續的3年時間里,左手醫生陸續打造了CDSS、分診、預問診、智能問藥、智能自診、用藥管家等醫療AI服務模塊,驅動這些模塊能夠完成目標任務的的是兩個更底層的智能引擎,即:結構化引擎和知識圖譜推理引擎。

結構化引擎是一類文本處理技術,它的目的是將純文本(病歷、醫學書籍、醫患對話等)轉化為以實體、屬為主體的結構化信息。這一技術在醫學知識圖譜構建,對話機器人語義解析環節扮演著十分關鍵的角色。因為只有通過結構化引擎,才能將“連續”的文本進行“結構化”,進而借助知識圖譜來處理這些結構化數據,得到最終的輸出。

php4CCdXT

知識圖譜可以簡單理解為結構化知識的集合。當我們想完成一個醫療任務時,我們把圖譜和醫學邏輯相結合,模擬醫生的溝通交互、臨床決策等能力從而完成相應任務。

知識圖譜在構建醫療AI應用的過程中處于核心的地位,知識圖譜的范圍、質量、顆粒度直接決定了AI應用的場景、交互形式以及最終的應用效果。

左手醫生基于實體識別、關系抽取、事件抽取等自然語言處理技術,構建了國內領先的多源多層次高質量的醫學知識圖譜,融合靜態知識與臨床專家經驗,覆蓋診斷、癥狀、藥品、影像檢查、實驗室檢查、病史、人群、科室、醫院、醫生等十余類實體的,廣泛支撐患者側和醫生側全流程醫療AI應用。這也奠定了左手醫生早期的醫療AI應用基礎。

知識圖譜具體怎么用呢?以癥狀自查為例,左手醫生在知識圖譜中將圍繞癥狀的標準問診邏輯、疾病畫像關聯起來。在AI問診中,不僅遵循了醫生常用的標準問診流程,而且基于疾病知識圖譜可以實時對患者病情進行推理分析,動態計算患者的潛在疾病,針對圍繞目標疾病進行發問,從而減少了傳統機械化的問卷式問診,提升患者的交互體驗。

phpNIGhaW

隨著左手醫生各類醫療AI產品的持續應用落地,我們收到了更多一線臨床專家的真實反饋,從而支持我們更好的迭代優化底層的知識圖譜;與此同時,我們也在持續擴充醫學重點細分領域的知識圖譜,包括甲狀腺血清檢測、免疫不良反應、化療方案不良反應以及腫瘤營養等領域的知識,在廣度與深度上,持續鞏固左手醫生醫學知識圖譜在國內領先的地位。

盡管客戶對于左手醫生醫療AI產品交互與決策效果高度認可,但我們仍然聽到了一些改進的建議,例如醫療AI技能相對獨立(比如分診與診斷無法同時完成);患者的口語化表達、不規范醫學用語對于自然語言理解(NLU)的巨大挑戰;對話交互流程嚴謹規范但可能過長,導致用戶完成的依從不夠高;專業的醫學術語給患者帶來更高的理解成本。而這些問題恰恰也是基于傳統任務型對話pipeline框架的短板,NLP領域的基礎工作仍然十分有挑戰。

2019/2020年隨著大規模預訓練模型的橫空出世和飛速發展,一系列NLP任務的新范式使得對話交互技術進入快速迭代優化的新周期,我們敏銳地注意到了LLM模型的巨大潛力,并認為使用LLM可能是打造智能醫生更好的思路。

phpZUXMLo

LLM的應用思路是:任何NLP任務(分類、抽取、摘要、翻譯等)都可以統一為生成任務,也就是以語言模型預測后續token的思路來完成。而相對來說海量的文本訓練數據以及自監督學的方式可以很好的支撐大型語言模型的預訓練過程,而NLP工程師的日常工作內容也逐漸轉變為以下兩類:

● 基于領域任務對預訓練模型的微調(finetune);

● 通過提示學的zero-shot learning或few-shot learning,將下游任務直接轉換成語言模型的輸入形式;

2020年,基于OpenAI GPT模型,左手醫生打造了AI Doctor 2.0版本,相較于傳統的任務型對話框架,這一版本具有一些明顯的優勢:

● 生成的框架更好的融合對話交互各環節(NLU, 對話管理,回復生成等),聯合優化,解決單獨模塊相對獨立的問題。

● 模型參數規模的不斷擴大,可以更好存儲和表達對話上下文。以自然語言形式存在的對話上下文也更好地解決NLU結構化解析能力的不足,使得Chatbot可以更好把握用戶真實需求和病情的細節信息,更加貼患者的個化訴求。

● 直接以自然語言表述回復患者,使得患者獲得更加真實的醫患對話體驗,提升交互依從。

phpIwD0li

在打造AI Doctor 2.0時候(以下我們稱呼AID),我們發現通過提示學的思路,LLM模型不僅在對話交互方面表現出優異的能力,同時也具有優秀的推理決策能力,AID在常見病的科室分診、診斷建議、藥品推薦、檢查檢驗推薦及患教建議等環節,能與有監督學訓練的模型差距并不明顯,這也表明在醫療領域大模型可以是一種新型的知識載體,不同于知識圖譜顯式的存儲實體關系、屬等信息,領域知識以海量參數的形式被存儲起來,而工程師需要做的是找到穩定的能更優的提示,將大模型的領域知識和推理能力激發出來。

大模型的能高度依賴于訓練數據的規模與質量,由于醫療數據尤其是優質的專家問診數據的稀缺,因此我們在2020年開始布局聽譯機器人,這是一款放置于診室桌面的智能硬件產品,它可以實時識別、記錄醫患問診內容。向醫生進行問診內容提示、患教知識推薦。解放醫生雙手,讓醫生不再邊問診邊書寫編輯病歷,專注于患者診療本身。對于AID而言,聽譯機器人就是最好的訓練數據來源,可以直接學優質且真實的醫患對話。這類數據在形式上與AI醫生更加貼合,而且沒有經過人工修改與總結,信息豐富程度較高。

phpgVAhkr

隨著產品在客戶應用場景的落地,AID無法判斷給出的回復和答案的質量好壞這一問題,成了亟需解決的關鍵環節。采樣生成的方式提供了多樣的同時,也使得模型輸出的質量參差不齊,預訓練+提示學的大模型并沒有能力進行很好的判別。而2022年出現的InstructGPT/ChatGPT則將改進思路和想像空間徹底打開。

指令學的靈活應用,基于領域專家反饋的強化學框架(RLHF),更豐富的訓練數據類型使得InstructGPT/ChatGPT的應用效果取得了真正的代際突破。

基于ChatGPT指導思想,AID進入效果優化的新階段,同時我們也開始將大模型用于更多醫療AI產品和服務。比如,我們將大模型用于結構化技術。利用prompt技術,通過極少量的標注即可從無結構化文本中抽取我們想要的細粒度結構化數據。

LLM在醫療行業的應用

看到LLM如此出色的表現,那么不禁去思考,在醫療上LLM/ChatGPT具體都能做什么呢?

先從醫療側入手,我們先看醫療對AI(NLP)技術的需求,歸納一下,可以分為兩類:

1、重復勞動(效率提升),如數據處理、文書撰寫,文檔質控,患教隨訪等等;

2、適當場景提醒(能力提升),如輔助診斷、風險評估等等;

在醫生側,AI技術可以將醫生從大量重復勞動中解放出來,讓醫生有更多時間來完成高質量高價值的醫療決策,同時AI醫生可以在適當的診療節點,給予醫生更新更細粒度的醫學知識支持,提升決策質量。

LLM在醫療中完成較好的任務

1、文書工作

雖然目前的LLM還不具備在底層邏輯上對于醫療知識的理解,但已經可以針對的完成醫療文本的處理任務,對于醫療文書的有約束歸納總結,而且海量的訓練數據規模,以及逐漸顯現的泛化/推理能力,使得即使在面對從未見過的文本數據,大模型依然有相當出色的處理效果。這就使得在醫生輸入特定信息的簡要說明、需詳細說明的概念和要解釋的醫囑后,可以節約大量花在醫療文檔書寫的時間。

2、信息抽取類

更大規模的LLM模型在表達字、詞和句子間的語義關系方面的能力得到了顯著的提升,所以對于實體識別、關系抽取、事件抽取這類傳統NLP任務有較高的準確度,可以很好的完成醫療文本結構化等任務,從而支撐科研數據構建、結構化搜索、醫療文書質控、DRG控費、醫療數據統計分析等應用場景。

左醫的聽譯機器人早期版本,還是借助pattern & 知識圖譜matching等技術,從醫患對話中提取有效字段。借助LLM及prompt,不僅有效的針對已知schema提升抽取質量,同時,只要標注少量的案例,也可以達到對新增schema帶來經驗的抽取效果。

3、醫療Bot及患者服務

在人機溝通上,一方面LLM更長的序列長度可以容納更多的對話上下文,另一方面借助真實優質的醫患對話及患者反饋,也可以打造既能符合醫療慣,又能理解患者通俗語言的擬人化醫療Chatbot。

在患者服務層面,借助LLM對海量文獻的歸納總結,無需再針對構建患教知識庫,即可針對患者的提問給出合理的解答,在此過程中,根據患者的反饋行為持續增強學

LLM在醫療中現階段較難完成的任務

在生成任務上,LLM擅長對現有知識的歸納總結,但是當要解決的問題所依賴的數據存在缺失、低質量甚至誤導信息時,它就會變得一本正經的胡說八道。

而在醫療領域,這一問題會成為應用落地的瓶頸,特別是在醫療的??茖2〖毞诸I域,獲取高質且大量的醫療數據無疑是非常困難:

1、輔助診斷及治療建議

網友測試ChatGPT也可以發現,ChatGPT可以針對一些常見病的病情給出診斷及用藥方案。其原理,也是LLM在閱讀大量網絡文章時,基于文章中的上下文構建出診斷&治療建議的關聯關系。但在實際場景中,患者病情的復雜程度以及不同患者之間細微的差異,對于現階段LLM的推理能力都是非常大的挑戰。

2、風險評估

時間序列數據的缺失,以及風險因素來源與多篇研究文檔,現有的LLM去跨多文檔理解可能需要更深度的訓練和更大的參數。

3、健康干預

健康干預是一系列應用模塊組合而成,需要及時獲取患者當前狀態,借助風險評估,給出患者藥物、飲食、運動等指導。對于LLM這種生成模型來講,如果表達患者完整的病情信息,以及根據患者的病情變化實時給出有效的干預方案依然困難。

左醫在怎么做

AI技術在醫療領域的成功,依然取決于幾個關鍵因素:優質醫療數據的獲取、數據的可用和處理邏輯,以及企業對于AI技術在醫療領域應用局限的認知深度等方面。為了提高AI在醫療領域的應用效果,醫療數據的高質量清洗,醫療領域任務/指令的設計,更多貼真實場景的醫療任務的學,RLHF的機制探索,從而讓AI模型學到更高質量的數據,并通過評估和迭代不斷提升能。

左手醫生團隊在研發層面已經融合OpenAI等廠商的成熟訓練思路、結合左醫醫學知識圖譜以及我們在醫療領域多年積累的數據、行業理解,快速驗證大模型對于AI醫生能力的躍遷提升,以及更多醫療場景的多任務統一學。

在應用落地層面,上線兩年期間, 基于大模型的AID產品已經服務了復旦中山醫院、優加健康、蠻牛健康、金蝶醫療、賓理汽車、達闥機器人、360搜索等數十家互聯網醫療和智能硬件企業,獲得了合作伙伴的認可,并在實際使用中持續學和進化。

在優質數據積累層面,聽譯機器人通過硬件設備的升級,算法模型優化及產品功能迭代,產品效果有了明顯提升,已經服務了北京協和醫院,溫州康寧醫院,中國醫科大學附屬第一醫院等醫療機構,優質專家數據與知識在持續積累當中,醫療領域的優質數據飛輪逐步形成中。

從相信而看見到看見而相信

我們堅定地相信,在未來的時間里,大模型會大大地提升AI醫生的應用效果,進一步拓展AI在醫療領域的應用場景和想像空間。

大模型對于醫療NLP即是挑戰同時也帶來巨大的機遇,左手醫生將繼續秉持"打造主動式AI,讓優質醫療觸手可及"的使命,引領醫療認知識智能創新與變革的新浪潮,為醫療健康行業提供更好的產品與服務。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

關鍵詞:

最新文章
国产乱人伦精品一区二区,国产在线麻豆精品观看,国产在线播精品第三,亚洲欧美国产制服动漫
>