原始文章

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI


站上相關主題文章列表

這項研究全面探討大型語言模型(LLMs)在生物醫學與健康資訊學(BHI)的應用,強調其變革潛力及面臨的倫理與實際挑戰。透過分析1,698篇研究,發現LLMs在臨床決策支持、病患互動及醫療文件分析等領域的應用顯著增加,預期能提升診斷準確性。研究也揭示機構間的合作動態,特別是在心理健康和神經系統疾病的管理上,顯示出個人化醫療的潛力。儘管LLMs展現出巨大潛力,仍需重視倫理影響及模型驗證挑戰,以確保其在臨床上的有效性。 PubMed DOI

罕見疾病影響全球數百萬人,但因為盛行率低,研究關注有限,且缺乏特定的 ICD 代碼,讓臨床試驗中的患者識別變得困難。為了解決這個問題,我們開發了名為自動化罕見疾病挖掘(AutoRD)的系統,能自動提取醫學文本中的罕見疾病資訊。AutoRD 整合了醫學知識圖譜,並在實體和關係提取上表現優異,特別是在罕見疾病實體提取上達到 83.5% 的 F1 分數,顯示出其在醫療保健轉型中的潛力。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在從電子健康紀錄中提取數據的表現,使用了50份合成醫療筆記。共測試了18個LLM,並與基準模型RoBERTa比較,涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等,準確率超過0.98,明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性,顯示出能有效協助數據提取,減輕醫療人員的負擔。不過,仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI

這項研究利用GPT-4.0整合臨床數據,開發了一個全面的敗血症知識圖譜。敗血症是一種變異性大的病症,傳統知識圖譜建構困難。研究者從中國西部三家醫院建立了多中心敗血症數據庫,收集了10,544名患者的數據。透過GPT-4.0的技術,成功生成了包含1,894個節點和2,021個關係的知識圖譜,顯示其在實體識別和關係提取上的優越性。這項成果不僅增進了對敗血症的理解,也為臨床決策提供了支持,成為未來研究的寶貴資源。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

這項研究推出 CDEMapper 工具,結合語意搜尋和大型語言模型,協助把本地資料對應到 NIH 的標準資料元素。CDEMapper 不只提升對應準確率,也讓操作更方便,有助於資料互通和重複利用。評估結果顯示,這工具比傳統人工方法更有效率,展現 LLM 在資料對應上的優勢。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI

這篇綜述整理了LLMs在醫療診斷的最新應用,像是疾病分類和醫學問答,特別以GPT-4和GPT-3.5為主。雖然在放射科、精神科等領域表現不錯,但還是有偏見、隱私和法規等問題。未來要加強驗證、減少偏見、提升可解釋性,並統一法規,才能讓LLMs更安全地應用在醫療上。 PubMed DOI

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI