Assessing the Capabilities of Generative Pretrained Transformer-4 in Addressing Open-Ended Inquiries of Oral Cancer.
評估 Generative Pretrained Transformer-4 在解決口腔癌開放性問題上的能力。 Int Dent J 2024-08-04

這項研究指出，使用大型語言模型如GPT-4能有效提升公眾對口腔癌預防和早期檢測的認識。研究人員評估了GPT-4對60個口腔癌相關問題的回答能力，結果顯示標準版和自訂版的表現都不錯，大部分回答獲得高分。雖然兩者的中位數分數略有差異，但統計分析顯示表現無顯著差異。研究強調，GPT-4能提供有用的資訊，但仍無法取代醫療專業人士的專業知識，應作為輔助資源使用。 PubMed DOI

Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model.
使用檢索增強語言模型提高 GPT-3/4 在生物醫學數據上的準確性。 PLOS Digit Health 2024-08-21

這項研究探討檢索增強生成（RAG）模型在回答擴散性大B細胞淋巴瘤（DLBCL）問題的效果，並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示，RAG模型在準確性和相關性上表現優於其他大型語言模型，且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳，但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI

Evaluation of the integration of retrieval-augmented generation in large language model for breast cancer nursing care responses.
大型語言模型中檢索增強生成技術在乳腺癌護理回應中的整合評估。 Sci Rep 2024-12-27

這項研究探討了檢索增強生成（RAG）技術如何提升大型語言模型（LLMs）在乳腺癌護理中的效能。研究比較了兩組：一組使用GPT-4模型，另一組則結合RAG技術。結果顯示，RAG-GPT組在整體滿意度（8.4對5.4）和回答準確性（8.6對5.6）上明顯優於對照組，且差異具統計意義（p < 0.01）。不過，兩組在同理心得分上無顯著差異（8.4對7.8，p > 0.05）。結論指出，RAG技術能有效提升LLMs在臨床護理中的表現，顯示其在護理實踐和教育上的潛力。 PubMed DOI

Comparing ChatGPT-3.5 and ChatGPT-4's alignments with the German evidence-based S3 guideline for adult soft tissue sarcoma.
比較 ChatGPT-3.5 和 ChatGPT-4 在成人軟組織肉瘤方面與德國循證 S3 指南的一致性。 iScience 2025-01-06

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答成人軟組織肉瘤相關臨床問題的表現，問題依據德國S3指引制定。兩位肉瘤專家對80個問題的回答進行評分。結果顯示，ChatGPT-4的表現優於ChatGPT-3.5，準確性和充分性中位數分數分別為5.5對5.0和5.0對4.0。雖然兩者在某些主題上相似，但ChatGPT-4在一般治療及四肢/軀幹肉瘤方面更佳。不過，兩者偶爾也會提供誤導性和潛在危險的信息，強調臨床應用需謹慎及人類監督的重要性。 PubMed DOI

Evaluation of a context-aware chatbot using retrieval-augmented generation for answering clinical questions on medication-related osteonecrosis of the jaw.
使用檢索增強生成技術評估上下文感知聊天機器人，以回答有關藥物相關性下顎骨壞死的臨床問題。 J Craniomaxillofac Surg 2025-01-11

這項研究強調大型語言模型（LLMs）在醫療領域的潛力，特別是透過檢索增強生成（RAG）來提升數據透明度和準確性。研究團隊開發了GuideGPT，一個能理解上下文的聊天機器人，整合了449篇科學文獻的知識，提供有關藥物相關性顳骨壞死（MRONJ）的資訊。與通用的PureGPT相比，GuideGPT在內容、科學解釋和一致性上表現更佳，顯示RAG能有效提升LLM的回應質量，成為臨床實踐中的重要工具。 PubMed DOI

Large language models for pretreatment education in pediatric radiation oncology: A comparative evaluation study.
大型語言模型在小兒放射腫瘤學中的預處理教育：一項比較評估研究。 Clin Transl Radiat Oncol 2025-01-27

這項研究評估了GPT-3.5和GPT-4在小兒放射治療患者及其家長教育上的有效性。研究發現，GPT-4和放射腫瘤科醫生的回答質量最高，但GPT-4的回答有時過於冗長。微調過的GPT-3.5表現優於基本版本，但常常提供過於簡化的答案。整體來看，GPT-4可作為小兒放射腫瘤學患者及家庭的有用教育資源，雖然使用GPT-3.5時需謹慎，因為它可能產生不足的回答。 PubMed DOI

Retrieval-augmented generation improves precision and trust of a GPT-4 model for emergency radiology diagnosis and classification: a proof-of-concept study.
檢索增強生成提升 GPT-4 模型在急診放射學診斷和分類中的精確性和信任度：一項概念驗證研究。 Eur Radiol 2025-02-14

這項研究探討了增強檢索生成（RAG）的GPT-4模型在診斷和分類創傷性傷害的效果。研究人員開發了名為TraumaCB的工具，利用專家知識來提升準確性。結果顯示，TraumaCB在診斷上達到100%準確率，分類96%，明顯優於一般的GPT-4。這項研究強調了傷害分類的挑戰，並指出結合RAG的GPT-4能提升創傷放射學的診斷能力，對急診部門的效率有正面影響。 PubMed DOI

Assessing GPT-4's accuracy in answering clinical pharmacological questions on pain therapy.
評估 GPT-4 在疼痛治療臨床藥理學問題回答中的準確性。 Br J Clin Pharmacol 2025-03-11

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題，GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示，99%的參與者認為回應易懂，84%認為信息詳細，93%表示滿意，96%認為醫學準確。不過，只有63%認為信息完整，顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具，結合即時藥理數據庫，以提升臨床決策的準確性。 PubMed DOI

Retrieval-augmented generation enhances large language model performance on the Japanese orthopedic board examination.
檢索增強生成提升大型語言模型在日本骨科考試中的表現。 J Orthop Sci 2025-03-29

這項研究探討檢索增強生成（RAG）對大型語言模型（LLMs）在醫學領域的影響，特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫，評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示，GPT-3.5 Turbo使用RAG後準確率未見提升，仍為28%；而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出，GPT-3.5 Turbo在利用檢索數據上表現不佳，顯示其推理能力不足。總體而言，RAG顯著提升了GPT-4o和o1-preview的表現，特別是o1-preview達到臨床實踐的水準。 PubMed DOI

Retrieval augmented generation for 10 large language models and its generalizability in assessing medical fitness.
10 種大型語言模型的檢索增強生成及其在評估醫療適應性中的普遍性。 NPJ Digit Med 2025-04-04

這項研究探討了基於GPT-4的檢索增強生成（RAG）模型在術前評估中的有效性。研究測試了十個大型語言模型，生成超過3,200個回應，並與近450個人類答案進行比較。結果顯示，使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%，明顯高於人類的86.6%，且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

原始文章

站上相關主題文章列表