原始文章

這項研究強調大型語言模型(LLMs)在醫療領域的潛力,特別是透過檢索增強生成(RAG)來提升數據透明度和準確性。研究團隊開發了GuideGPT,一個能理解上下文的聊天機器人,整合了449篇科學文獻的知識,提供有關藥物相關性顳骨壞死(MRONJ)的資訊。與通用的PureGPT相比,GuideGPT在內容、科學解釋和一致性上表現更佳,顯示RAG能有效提升LLM的回應質量,成為臨床實踐中的重要工具。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究評估了兩個AI聊天機器人,GPT-4和GPT-3.5(ChatGPT),在回答鼻整形手術相關臨床問題的表現。分析了10個問題後,兩者準確率均達90%。不過,GPT-4的準確率(86.0%)略低於GPT-3.5(94.0%),但差異不顯著。GPT-4在評估證據信心方面表現更佳(52.0%對28.0%)。兩者在政策層級和證據質量上無顯著差異,但GPT-4引用文獻的頻率較高(36.9%對24.1%)。總體來看,GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)和檢索增強生成(RAG)系統在管理基於證據的信息的效果,特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯,雖然RAG系統在準確性上有所提升,但仍可能產生有害回應。此外,RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範,以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

這篇文章探討了一項研究,分析檢索增強生成(RAG)如何提升大型語言模型(LLMs)在放射學的表現。RAG 讓 LLMs 能夠即時訪問更新的知識庫,無需微調即可生成準確答案。研究中使用了來自 *RadioGraphics* 的 3,689 篇文章作為數據庫,並評估了五種 LLMs 在192道放射學考題中的表現。結果顯示,RAG 顯著提升了 GPT-4 和 Command R+ 的得分,特別是在與 *RadioGraphics* 相關的問題上,成功檢索並引用了相關資料。整體而言,RAG 在放射學任務中展現了提升 LLM 能力的潛力。 PubMed DOI

這項研究探討檢索增強生成(RAG)對大型語言模型(LLMs)在醫學領域的影響,特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫,評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示,GPT-3.5 Turbo使用RAG後準確率未見提升,仍為28%;而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出,GPT-3.5 Turbo在利用檢索數據上表現不佳,顯示其推理能力不足。總體而言,RAG顯著提升了GPT-4o和o1-preview的表現,特別是o1-preview達到臨床實踐的水準。 PubMed DOI

這項研究探討了基於GPT-4的檢索增強生成(RAG)模型在術前評估中的有效性。研究測試了十個大型語言模型,生成超過3,200個回應,並與近450個人類答案進行比較。結果顯示,使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%,明顯高於人類的86.6%,且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

Thyro-GenAI是一款基於檢索增強生成(RAG)技術的聊天機器人,專注於甲狀腺疾病的臨床問題。經過與其他三款服務型大型語言模型(如ChatGPT、Perplexity和Claude)的比較,Thyro-GenAI在回應質量上表現最佳,並且在參考資料的可靠性上也名列前茅。這顯示出Thyro-GenAI能提供更準確的臨床推理,減少幻覺現象,對一線醫師在管理甲狀腺疾病患者時具有重要的輔助價值。 PubMed DOI

這項研究開發了一套用於提升核醫療診斷治療的聊天機器人架構,透過情境增強(RAG)讓大型語言模型能查找相關研究資料。測試五款主流LLM後發現,RAG能明顯提升答案品質,尤其CLAUDE 3 OPUS和GPT-4O表現最好。研究也提醒,目前問題範圍有限,未來應擴大題目多樣性並比較人類與AI的評分。 PubMed DOI

這項研究發現,結合RAG技術的ChatGPT-4在骨科考題上的表現,正確率約74%,跟骨科醫師差不多,也比沒用RAG的ChatGPT-4和3.5好。RAG還能讓AI引用資料來源,提升可信度,對骨科教學和考試準備很有幫助。 PubMed DOI

將專業知識整合進大型語言模型對醫學教育很有挑戰,尤其牙髓病學又需要文字和影像資源。一般LLM常缺乏臨床精確度和情境。研究團隊開發Endodontics-KB平台,結合實證文獻和操作影片,並用分層RAG架構。其聊天機器人EndoQ能用多模態資料進行臨床推理,專家評比在五大指標都勝過一般LLM,提升牙科教育,也可應用到其他醫學領域。 PubMed DOI