原始文章

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在診斷罕見遺傳疾病中的應用,特別是基於表型的基因優先排序。研究比較了五種LLMs,結果顯示GPT-4的表現最佳,能在前50個預測中準確識別17.0%的診斷基因,但仍低於傳統方法。雖然較大的模型通常表現較好,先進技術如檢索增強生成並未提升準確性,但精緻的提示改善了任務完整性。整體而言,這些發現顯示LLMs在基因組分析中的潛力與限制,對臨床應用有重要影響。 PubMed DOI

這項研究旨在提升從臨床筆記中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較傳統自然語言處理(tNLP)和大型語言模型(LLMs)的效果。研究針對腹痛、腹瀉和糞便出血進行標註,並開發模型提取資訊。結果顯示,GPT-4在準確率上優於tNLP,尤其在外部驗證中表現穩定。研究強調LLMs在不同機構間的泛化能力,建議更廣泛應用這些工具以改善IBD的研究與病人護理。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討如何從電子健康紀錄中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較了傳統自然語言處理(tNLP)和大型語言模型(LLMs)如GPT-4的表現。研究發現,GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP,特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力,且不受人口統計或診斷偏見影響。 PubMed DOI

深度表型學透過本體方式全面描述患者的徵兆與症狀,為了分析電子健康紀錄中的醫生筆記,需採用高通量方法。過去三十年已有進展,本研究展示大型語言模型與混合自然語言處理(NLP)模型的有效性,結合詞向量與機器學習分類器,達成高準確率。結果顯示,大型語言模型有潛力成為臨床徵兆與症狀深度表型學的主要技術,特別是在醫生筆記中記錄的資訊上。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究評估了GPT-4o大型語言模型在從非結構化的臨床筆記中提取徵兆和症狀的表現。研究使用MTSamples語料庫的手動標註筆記作為比較,並透過命名實體識別技術進行提取。結果顯示,GPT-4o在一般提取中達到78%的精確度,心肺數據集更高達87%,泌尿數據集則為81%。雖然模型表現良好,但在專業領域仍需進一步調整以提升召回率和適用性。 PubMed DOI

這項研究發現,GPT-4o 在不用人工標註的情況下,能準確又有效率地從電子病歷資料做慢性病分類,表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97,macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法,還能進一步提升準確度,讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

**重點整理:** 這項研究顯示,只要搭配詳細的提示、範例和逐步推理,大型語言模型(LLMs)就能夠準確地從臨床紀錄中擷取出常見的病人症狀。跟傳統的機器學習方法相比,LLMs在從自由文本中辨識和標準化症狀資訊方面表現得更好,這有助於提升醫療流程,也能支持更多相關研究。 PubMed

研究團隊開發了一套經微調的大型語言模型,能自動從電子病歷的臨床紀錄中擷取阿茲海默症及相關失智症的7大症狀,準確度(AUROC)高達0.97-0.99,優於傳統方法。這些症狀不僅能預測失智症診斷,還和腦部MRI結果有關,有助提升診斷準確率並推動相關研究。 PubMed DOI