原始文章

這項研究提出了一種簡化的檢索器,利用BioBERT的上下文詞嵌入來搜尋人類表型本體(HPO),提升大型語言模型在標準化表型術語的準確性。與傳統依賴明確術語定義的方法不同,我們的方法讓GPT-4o在《線上孟德爾遺傳學手冊》的臨床摘要中,標準化準確率從62%提升到85%。這不僅顯示出顯著的準確性提升,還提供了一種比複雜檢索系統更有效的替代方案,顯示其在其他生物醫學術語標準化任務中的潛力。 PubMed DOI


站上相關主題文章列表

深度表型學透過本體方式全面描述患者的徵兆與症狀,為了分析電子健康紀錄中的醫生筆記,需採用高通量方法。過去三十年已有進展,本研究展示大型語言模型與混合自然語言處理(NLP)模型的有效性,結合詞向量與機器學習分類器,達成高準確率。結果顯示,大型語言模型有潛力成為臨床徵兆與症狀深度表型學的主要技術,特別是在醫生筆記中記錄的資訊上。 PubMed DOI

大型語言模型(LLMs)如GPT-4o在醫療應用,特別是鑑別診斷方面展現潛力。研究人員創建了4,967個臨床案例,涵蓋378種遺傳疾病,並翻譯HPO術語,生成多語言提示。結果顯示,GPT-4o在英語中正確識別排名第一的診斷達19.8%,而在八種非英語語言中,正確率介於16.9%到20.5%之間。這顯示該模型在非英語臨床環境中的應用潛力,並得到多方支持,推進LLMs在醫療領域的合作努力。 PubMed DOI

這項研究探討了電子健康紀錄(EHRs)中非結構化醫療文本的標準化挑戰,因為這些文本格式不一致。約80%的EHR數據是非結構化的,作者使用大型語言模型(LLMs)來標準化這些文本,開發了四種策略,包括RAGnorm。研究評估了這些策略在三個SNOMED映射的病症術語數據集上的表現,結果顯示RAGnorm在所有數據集中的表現最佳,且在TAC2017任務中獲得88.01的微F1分數,顯示其在標準化生物醫學文本方面的潛力。 PubMed DOI

這項研究發現,GPT-4o 在不用人工標註的情況下,能準確又有效率地從電子病歷資料做慢性病分類,表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97,macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法,還能進一步提升準確度,讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

這項研究比較四種GPT-4方法,把韓國醫院的診斷用語自動對應到SNOMED CT。結果顯示,RAG模型表現最好,有96.2%能成功對應,完全吻合率也最高。RAG的結構性錯誤率最低,但在細節準確度上還有進步空間。整體來說,AI輔助有助於醫療資料標準化,但臨床驗證還需加強。 PubMed DOI

這項研究比較了多種大型語言模型(LLM)方法,把電子病歷的非結構化醫療文本標準化成臨床術語。結果發現,檢索增強生成(RAGnorm)方法表現最穩定、準確度最高,即使沒訓練資料也很有效。這類檢索型LLM在生醫文本標準化上很有潛力,值得持續發展與應用。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

這項研究發現,年輕醫師在多模態大型語言模型(像ChatGPT-4o)協助下,辨識罕見疾病影像的HPO術語準確率大幅提升(67.4%對20.4%),而且不同專科間表現更一致。不過,這些模型還是常出現錯誤或亂編術語。受過相關訓練的醫師表現更好。總結來說,MLLM能幫助提升準確度,但臨床應用前還需再優化。 PubMed DOI

罕見疾病診斷困難,因資料少且基因多樣。本研究評估大型語言模型(LLMs)在基因排序的表現,發現GPT-4表現最佳,但對知名基因有偏好且受輸入順序影響。採用分批處理可提升準確度並減少偏誤,有助加快罕見疾病基因鑑定與診斷。程式碼可在 GitHub 下載。 PubMed DOI