原始文章

大型語言模型(LLMs)在醫療領域有潛力,但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧,發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷,行政任務則較少。大多數研究專注於問答任務,準確性是主要評估維度,但公平性和偏見等問題卻被忽略。未來應標準化評估指標,納入臨床數據,並擴展至更多任務和專科。 PubMed DOI


站上相關主題文章列表

研究探討大型語言模型在醫學上的應用,分析了550篇相關研究。LLMs已經在醫學診斷、寫作、教育和管理方面帶來改善。它們有助於起草文件、培訓和研究。挑戰在於上下文和過度依賴。研究強調了與驗證、倫理和傳統實踐的整合。未來研究應該探索多模式LLMs、算法理解和負責任使用。 PubMed DOI

總結:大型語言模型(LLMs)是現代AI工具,在醫療領域廣泛運用。本文討論臨床醫生和外科醫生如何運用LLMs。綜合研究發現LLMs可輔助診斷、治療指導、手術規劃,但需注意準確性和偏見。應視為醫療專業知識的增強而非替代工具。 PubMed DOI

這項研究系統性回顧了生成性大型語言模型(LLMs)在臨床環境,特別是電子健康紀錄(EHRs)的應用。儘管自然語言處理技術進步,LLMs在臨床實踐中的整合仍有限,面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻,發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性,以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估,以提升LLMs在醫療中的可靠性。總之,LLMs在病人護理上有潛力,但仍需克服重大障礙。 PubMed DOI

這項研究強調人類評估在醫療大型語言模型(LLMs)中的重要性,回顧了各醫學專科的評估方法,特別關注評估維度、樣本大小、評估者選擇和統計分析。對142項研究的文獻回顧顯示,現行實踐在可靠性和適用性上有明顯缺口。為了解決這些問題,作者提出了QUEST框架,包含規劃、實施與裁定、評分與審查三個階段,並圍繞五個關鍵評估原則,旨在提升LLMs在醫療環境中的有效性與安全性。 PubMed DOI

這篇系統性回顧探討大型語言模型(LLMs)在心理健康領域的應用,特別是在早期篩檢、數位介入和臨床應用的有效性。回顧分析了2017年到2024年期間的40篇文章,結果顯示LLMs能有效識別心理健康問題並提供電子健康服務,但也存在文本不一致、幻覺現象及缺乏倫理框架等風險。主要挑戰包括需要多語言專家標註的數據、內容可靠性及數據隱私等倫理問題。雖然LLMs不應取代專業服務,但作為輔助工具的潛力值得進一步研究。 PubMed DOI

這項研究全面探討大型語言模型(LLMs)在生物醫學與健康資訊學(BHI)的應用,強調其變革潛力及面臨的倫理與實際挑戰。透過分析1,698篇研究,發現LLMs在臨床決策支持、病患互動及醫療文件分析等領域的應用顯著增加,預期能提升診斷準確性。研究也揭示機構間的合作動態,特別是在心理健康和神經系統疾病的管理上,顯示出個人化醫療的潛力。儘管LLMs展現出巨大潛力,仍需重視倫理影響及模型驗證挑戰,以確保其在臨床上的有效性。 PubMed DOI

這篇系統性回顧評估大型語言模型(LLMs)在醫療考試問題上的準確性,並與人類標準比較。回顧納入截至2023年9月10日的英文研究,最終選出32篇符合標準的研究。結果顯示,LLMs的整體準確性為0.61,而美國醫學執照考試(USMLE)為0.51。特別是ChatGPT的準確性達到0.64。研究建議LLMs可協助解決醫療需求,並提出RUBRICC框架,以確保在健康服務中優先考量病人安全與有效性。 PubMed DOI

這篇評論探討了對話式大型語言模型(LLMs)在醫療保健的應用及其相關問題,特別是在2022年11月ChatGPT推出後的情況。總結了截至2023年9月1日的65篇經過同行評審的研究,主要來自PubMed、ACM和IEEE等資料庫。研究多集中於ChatGPT,應用範疇包括摘要、醫學知識查詢等。評論指出的擔憂有可靠性、偏見、隱私及公眾接受度。雖然LLMs在摘要和一般醫學知識上有潛力,但在複雜任務上表現不佳。未來研究應加強LLMs的可靠性,並探討偏見和隱私問題的根源,強調需有法律、社會及技術措施來解決這些挑戰。 PubMed DOI

這篇回顧探討大型語言模型(LLMs)在病人教育和參與中的應用,分析了201項主要來自美國的研究,並提出六個關鍵主題,包括生成病人教育材料、解釋醫療資訊、提供生活方式建議等。研究顯示,LLMs能有效生成易懂的內容,改善病人與醫療提供者的溝通,但也存在可讀性、準確性及偏見等問題。未來需進一步研究以提升LLM的可靠性,並解決其在醫療應用中的倫理挑戰。 PubMed DOI

這篇評論探討了大型語言模型(LLMs)在醫療領域的臨床試驗現狀,共識別出27個試驗,其中5個已發表,22個仍在進行中。這些試驗涵蓋病人照護、數據管理、決策支持和研究協助等四大領域。雖然已發表的試驗顯示出潛在好處,但也引發了對準確性的擔憂。正在進行的試驗則探索病人教育和知情同意等創新應用。評論還指出評估LLMs快速變化特性的挑戰,並強調未來研究的方向。 PubMed DOI