原始文章

像 ChatGPT-4 這類通用型 LLM,回答臨床問題時常缺乏實用或有根據的建議。反觀專門設計的 OpenEvidence 和 ChatRWD,表現明顯更好。OpenEvidence 在有文獻時特別強,ChatRWD 則能在沒研究時給出可行建議。兩者結合,有望大幅提升臨床決策的循證支持。 PubMed DOI


站上相關主題文章列表

這篇論文探討了一種檢索增強生成(RAG)架構,幫助臨床醫師從社交媒體獲取醫療資訊,特別是針對新興藥物問題。研究比較了大型語言模型Nous-Hermes-2-7B-DPO與GPT-4的表現,評估它們在生成醫療查詢相關答案的能力。結果顯示兩者在相關性、連貫性和覆蓋率上表現相當,但在可讀性上有顯著差異。總體而言,RAG框架在低資源環境中有效解決醫療問題,為臨床醫師提供了有價值的工具。 PubMed DOI

這項研究評估了GPT-4生成式AI工具aiChat在回答臨床問題的效果,並與醫學圖書館員的資料進行比較。研究團隊使用了圖書館員處理的臨床問題資料庫,並根據COSTAR框架設計標準化提示。結果顯示,aiChat在216個問題中,有83.3%被評為「正確」,但只有37%的參考文獻被確認有效。雖然AI表現出潛力,但許多參考文獻無法驗證,未評估新概念的準確性。作者建議這是系列研究的第一部分,探討AI如何融入醫學圖書館員的工作。 PubMed DOI

這項研究探討大型語言模型(LLMs)和檢索增強生成(RAG)系統在管理基於證據的信息的效果,特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯,雖然RAG系統在準確性上有所提升,但仍可能產生有害回應。此外,RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範,以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

大型語言模型(LLMs)如ChatGPT在醫學領域的應用潛力巨大,但也帶來了準確性和可靠性的挑戰。研究顯示,LLMs能提供正確的疾病管理資訊,但必須符合國際指導方針。關鍵考量包括回應的可讀性、與指導方針的一致性、資訊來源的時效性、跨模型和跨語言的一致性,以及臨床使用的驗證。總之,雖然LLMs能提升醫學教育和決策,但仍需謹慎評估,以確保其在臨床中的安全與有效性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這篇回顧分析168篇研究,發現ChatGPT-4o在選擇題最準,ChatGPT-4開放式問題表現最好,但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出,Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示,Gemini 的資訊品質最佳,ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力,但簡化複雜內容的能力不錯。整體來說,這些模型在提供肝硬化健康資訊上表現良好,但品質、可讀性和正確性仍有差異,未來還需進一步改進。 PubMed DOI

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要,Claude在正確性和完整性上表現最好,但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查,目前還不適合單獨用於臨床摘要。 PubMed DOI

這項研究開發了一套用於提升核醫療診斷治療的聊天機器人架構,透過情境增強(RAG)讓大型語言模型能查找相關研究資料。測試五款主流LLM後發現,RAG能明顯提升答案品質,尤其CLAUDE 3 OPUS和GPT-4O表現最好。研究也提醒,目前問題範圍有限,未來應擴大題目多樣性並比較人類與AI的評分。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI