Potential for GPT Technology to Optimize Future Clinical Decision-Making Using Retrieval-Augmented Generation.
潛在的 GPT 技術在未來臨床決策優化中利用檢索增強生成的可能性。 Ann Biomed Eng 2024-04-08

人工智慧在醫療保健領域發展迅速，尤其透過自然語言處理的 AI 聊天機器人，能模擬人類對話，幫助臨床醫生和患者溝通。機器人應用檢索增強生成技術，提供更具針對性和詳細的回應。整合臨床數據和權威醫學資料，AI 聊天機器人能提供更貼心的指導、快速的診斷和治療建議，進而改善患者結果。 PubMed DOI

Assessing the Potential Role of Artificial Intelligence in Medication-Related Osteonecrosis of the Jaw Information Sharing.
評估人工智慧在藥物相關性下頜骨壞死資訊分享中的潛在角色。 J Oral Maxillofac Surg 2024-04-07

研究評估了ChatGPT在回答有關MRONJ的問題時提供的資訊品質。口腔顎面外科醫師使用GQS評估回答，平均得分為3.9分，顯示中等品質。結果顯示模型能讓病人基本了解MRONJ，雖然各問題組分數有差異，但統計上不顯著。 PubMed DOI

Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model.
使用檢索增強語言模型提高 GPT-3/4 在生物醫學數據上的準確性。 PLOS Digit Health 2024-08-21

這項研究探討檢索增強生成（RAG）模型在回答擴散性大B細胞淋巴瘤（DLBCL）問題的效果，並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示，RAG模型在準確性和相關性上表現優於其他大型語言模型，且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳，但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI

Comparative performance analysis of large language models: ChatGPT-3.5, ChatGPT-4 and Google Gemini in glucocorticoid-induced osteoporosis.
大語言模型的比較性能分析：ChatGPT-3.5、ChatGPT-4 和 Google Gemini 在糖皮質激素誘導的骨質疏鬆症中的表現。 J Orthop Surg Res 2024-09-17

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4 和 Google Gemini，針對糖皮質激素誘導的骨質疏鬆症（GIOP）及其預防和治療的美國風濕病學會指導方針的表現。研究發現，Google Gemini 的答案較為簡潔，但 ChatGPT-4 在準確性和全面性上表現更佳，特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升，而 Google Gemini 則無明顯差異。總體來看，ChatGPT-4 是最佳選擇。 PubMed DOI

Advancement of Generative Pre-trained Transformer Chatbots in Answering Clinical Questions in the Practical Rhinoplasty Guideline.
實用鼻整形指導中生成預訓練變壓器聊天機器人在回答臨床問題的進展。 Aesthetic Plast Surg 2024-09-25

這項研究評估了兩個AI聊天機器人，GPT-4和GPT-3.5（ChatGPT），在回答鼻整形手術相關臨床問題的表現。分析了10個問題後，兩者準確率均達90%。不過，GPT-4的準確率（86.0%）略低於GPT-3.5（94.0%），但差異不顯著。GPT-4在評估證據信心方面表現更佳（52.0%對28.0%）。兩者在政策層級和證據質量上無顯著差異，但GPT-4引用文獻的頻率較高（36.9%對24.1%）。總體來看，GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

Custom Large Language Models Improve Accuracy: Comparing Retrieval Augmented Generation and Artificial Intelligence Agents to Non-Custom Models for Evidence-Based Medicine.
自訂大型語言模型提升準確性：比較檢索增強生成和人工智慧代理與非自訂模型在循證醫學中的表現。 Arthroscopy 2024-11-09

這項研究探討了基於檢索增強生成（RAG）的大型語言模型（LLMs）在提供前交叉韌帶（ACL）損傷資訊的準確性。研究人員編輯了100個問題和答案，並測試了不同模型的表現。結果顯示，未整合RAG的模型準確率低於60%，但整合後平均提升39.7%。Meta的Llama 3 70b達到94%準確率，而結合RAG與AI代理的GPT-4則達95%。研究結果顯示RAG和代理增強能有效提升醫療資訊的準確性，對醫學領域的LLMs應用提供了支持。 PubMed DOI

Large language models' performances regarding common patient questions about osteoarthritis: A comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Perplexity.
大型語言模型在關於骨關節炎的常見病人問題上的表現：ChatGPT-3.5、ChatGPT-4.0 和 Perplexity 的比較分析。 J Sport Health Sci 2024-11-29

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Perplexity—在回答骨關節炎（OA）相關問題的準確性。研究將25個問題分為六個主題，並由三位骨科專家進行評分。結果顯示，ChatGPT-4.0的表現最佳，64%的回答被評為「優秀」，而ChatGPT-3.5和Perplexity分別為40%和28%。雖然所有模型的整體評分都很高，但在「治療與預防」方面表現較弱。這項研究顯示了大型語言模型的潛力，特別是ChatGPT-4.0在提供OA資訊上的準確性。 PubMed DOI

Evaluation of the integration of retrieval-augmented generation in large language model for breast cancer nursing care responses.
大型語言模型中檢索增強生成技術在乳腺癌護理回應中的整合評估。 Sci Rep 2024-12-27

這項研究探討了檢索增強生成（RAG）技術如何提升大型語言模型（LLMs）在乳腺癌護理中的效能。研究比較了兩組：一組使用GPT-4模型，另一組則結合RAG技術。結果顯示，RAG-GPT組在整體滿意度（8.4對5.4）和回答準確性（8.6對5.6）上明顯優於對照組，且差異具統計意義（p < 0.01）。不過，兩組在同理心得分上無顯著差異（8.4對7.8，p > 0.05）。結論指出，RAG技術能有效提升LLMs在臨床護理中的表現，顯示其在護理實踐和教育上的潛力。 PubMed DOI

Evaluating base and retrieval augmented LLMs with document or online support for evidence based neurology.
評估具有文件或線上支持的基礎及檢索增強型 LLMs 在證據基礎神經學中的應用。 NPJ Digit Med 2025-03-04

這項研究探討大型語言模型（LLMs）和檢索增強生成（RAG）系統在管理基於證據的信息的效果，特別針對13項神經學指導方針和130個問題。結果顯示性能差異明顯，雖然RAG系統在準確性上有所提升，但仍可能產生有害回應。此外，RAG系統在處理案例型問題時表現不如知識型問題。研究強調需要進一步改進和規範，以確保RAG增強的LLMs在臨床上的安全使用。 PubMed DOI

Retrieval-augmented generation enhances large language model performance on the Japanese orthopedic board examination.
檢索增強生成提升大型語言模型在日本骨科考試中的表現。 J Orthop Sci 2025-03-29

這項研究探討檢索增強生成（RAG）對大型語言模型（LLMs）在醫學領域的影響，特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫，評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示，GPT-3.5 Turbo使用RAG後準確率未見提升，仍為28%；而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出，GPT-3.5 Turbo在利用檢索數據上表現不佳，顯示其推理能力不足。總體而言，RAG顯著提升了GPT-4o和o1-preview的表現，特別是o1-preview達到臨床實踐的水準。 PubMed DOI

原始文章

站上相關主題文章列表