原始文章

這項研究強調大型語言模型(LLMs)在醫療領域的潛力,特別是透過檢索增強生成(RAG)來提升數據透明度和準確性。研究團隊開發了GuideGPT,一個能理解上下文的聊天機器人,整合了449篇科學文獻的知識,提供有關藥物相關性顳骨壞死(MRONJ)的資訊。與通用的PureGPT相比,GuideGPT在內容、科學解釋和一致性上表現更佳,顯示RAG能有效提升LLM的回應質量,成為臨床實踐中的重要工具。 PubMed DOI


站上相關主題文章列表

人工智慧在醫療保健領域發展迅速,尤其透過自然語言處理的 AI 聊天機器人,能模擬人類對話,幫助臨床醫生和患者溝通。機器人應用檢索增強生成技術,提供更具針對性和詳細的回應。整合臨床數據和權威醫學資料,AI 聊天機器人能提供更貼心的指導、快速的診斷和治療建議,進而改善患者結果。 PubMed DOI

研究評估了ChatGPT在回答有關MRONJ的問題時提供的資訊品質。口腔顎面外科醫師使用GQS評估回答,平均得分為3.9分,顯示中等品質。結果顯示模型能讓病人基本了解MRONJ,雖然各問題組分數有差異,但統計上不顯著。 PubMed DOI

這項研究探討檢索增強生成(RAG)模型在回答擴散性大B細胞淋巴瘤(DLBCL)問題的效果,並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示,RAG模型在準確性和相關性上表現優於其他大型語言模型,且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳,但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究評估了兩個AI聊天機器人,GPT-4和GPT-3.5(ChatGPT),在回答鼻整形手術相關臨床問題的表現。分析了10個問題後,兩者準確率均達90%。不過,GPT-4的準確率(86.0%)略低於GPT-3.5(94.0%),但差異不顯著。GPT-4在評估證據信心方面表現更佳(52.0%對28.0%)。兩者在政策層級和證據質量上無顯著差異,但GPT-4引用文獻的頻率較高(36.9%對24.1%)。總體來看,GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

這項研究探討了基於檢索增強生成(RAG)的大型語言模型(LLMs)在提供前交叉韌帶(ACL)損傷資訊的準確性。研究人員編輯了100個問題和答案,並測試了不同模型的表現。結果顯示,未整合RAG的模型準確率低於60%,但整合後平均提升39.7%。Meta的Llama 3 70b達到94%準確率,而結合RAG與AI代理的GPT-4則達95%。研究結果顯示RAG和代理增強能有效提升醫療資訊的準確性,對醫學領域的LLMs應用提供了支持。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎(OA)相關問題的準確性。研究將25個問題分為六個主題,並由三位骨科專家進行評分。結果顯示,ChatGPT-4.0的表現最佳,64%的回答被評為「優秀」,而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高,但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力,特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

這項研究探討了檢索增強生成(RAG)技術如何提升大型語言模型(LLMs)在乳腺癌護理中的效能。研究比較了兩組:一組使用GPT-4模型,另一組則結合RAG技術。結果顯示,RAG-GPT組在整體滿意度(8.4對5.4)和回答準確性(8.6對5.6)上明顯優於對照組,且差異具統計意義(p < 0.01)。不過,兩組在同理心得分上無顯著差異(8.4對7.8,p > 0.05)。結論指出,RAG技術能有效提升LLMs在臨床護理中的表現,顯示其在護理實踐和教育上的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)和檢索增強生成(RAG)系統在管理基於證據的信息的效果,特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯,雖然RAG系統在準確性上有所提升,但仍可能產生有害回應。此外,RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範,以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

這項研究探討檢索增強生成(RAG)對大型語言模型(LLMs)在醫學領域的影響,特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫,評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示,GPT-3.5 Turbo使用RAG後準確率未見提升,仍為28%;而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出,GPT-3.5 Turbo在利用檢索數據上表現不佳,顯示其推理能力不足。總體而言,RAG顯著提升了GPT-4o和o1-preview的表現,特別是o1-preview達到臨床實踐的水準。 PubMed DOI