Evaluation of a context-aware chatbot using retrieval-augmented generation for answering clinical questions on medication-related osteonecrosis of the jaw.
使用檢索增強生成技術評估上下文感知聊天機器人，以回答有關藥物相關性下顎骨壞死的臨床問題。 J Craniomaxillofac Surg 2025-01-11

這項研究強調大型語言模型（LLMs）在醫療領域的潛力，特別是透過檢索增強生成（RAG）來提升數據透明度和準確性。研究團隊開發了GuideGPT，一個能理解上下文的聊天機器人，整合了449篇科學文獻的知識，提供有關藥物相關性顳骨壞死（MRONJ）的資訊。與通用的PureGPT相比，GuideGPT在內容、科學解釋和一致性上表現更佳，顯示RAG能有效提升LLM的回應質量，成為臨床實踐中的重要工具。 PubMed DOI

Assessing the Efficacy of ChatGPT Prompting Strategies in Enhancing Thyroid Cancer Patient Education: A Prospective Study.
評估 ChatGPT 提示策略在提升甲狀腺癌患者教育中的效果：一項前瞻性研究。 J Med Syst 2025-01-17

這項研究指出，像 ChatGPT 這樣的 AI 平台在病人教育，特別是甲狀腺癌管理中越來越重要。研究人員設計了 50 個問題，評估 ChatGPT 的回答在準確性、全面性、人性化、滿意度和可讀性等方面的表現。結果顯示，使用「統計數據和參考文獻」的提示能產生最準確的答案，而「六年級水平」的提示則讓內容更易懂。不過，沒有特定提示的回答通常較複雜。雖然大部分引用自醫學文獻，但仍有少部分錯誤資訊，因此監督 AI 內容的準確性非常重要。 PubMed DOI

Accuracy of Current Large Language Models and The Retrieval Augmented Generation Model in Determining Dietary Principles in Chronic Kidney Disease.
慢性腎病飲食原則的當前大型語言模型及檢索增強生成模型的準確性。 J Ren Nutr 2025-01-26

這項研究評估了不同大型語言模型（LLMs）和檢索增強生成（RAG）框架在提供慢性腎病（CKD）飲食指導的準確性。研究以2020年國家腎臟基金會的營養指導為基準，測試了四個聊天機器人（GPT-4、Gemini 和 Llama），並使用12個相關提示。結果顯示，Gemini 和 RAG 的準確性最高（中位數4.0），而 GPT-4 和 Llama 較低（中位數2.5和1.5）。研究建議針對特定領域定制LLMs，或利用指導方針增強RAG框架，以提高醫療保健中的準確性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Appropriateness of Thyroid Nodule Cancer Risk Assessment and Management Recommendations Provided by Large Language Models.
大型語言模型提供的甲狀腺結節癌風險評估與管理建議的適當性。 J Imaging Inform Med 2025-03-03

這項研究評估了大型語言模型（LLMs）如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性，並與美國甲狀腺協會（ATA）及全國綜合癌症網絡（NCCN）的指導方針進行比較。322名放射科醫生參與評估，結果顯示Claude得分最高，其次是ChatGPT和Gemini。雖然不當回應比率相似，但ChatGPT在準確性上表現最佳。質性反饋指出，ChatGPT清晰且結構良好，Gemini則可及性高但內容淺薄，Claude組織性佳但偶爾偏離主題。總體而言，這些模型在輔助風險評估上有潛力，但仍需臨床監督以確保可靠性。 PubMed DOI

Comparing ChatGPT 4.0's Performance in Interpreting Thyroid Nodule Ultrasound Reports Using ACR-TI-RADS 2017: Analysis Across Different Levels of Ultrasound User Experience.
比較 ChatGPT 4.0 在解讀使用 ACR-TI-RADS 2017 的甲狀腺結節超音波報告中的表現：不同超音波使用者經驗水平的分析。 Diagnostics (Basel) 2025-03-13

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力，並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示，ChatGPT在回聲焦點的評估上與專家一致，但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT，顯示傳統醫學訓練的重要性。結論指出，ChatGPT可作為輔助診斷工具，但無法取代人類專業知識，並建議改善AI算法以增強其臨床實用性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Optimizing theranostics chatbots with context-augmented large language models.
以情境增強大型語言模型優化theranostics聊天機器人 Theranostics 2025-05-14

這項研究開發了一套用於提升核醫療診斷治療的聊天機器人架構，透過情境增強（RAG）讓大型語言模型能查找相關研究資料。測試五款主流LLM後發現，RAG能明顯提升答案品質，尤其CLAUDE 3 OPUS和GPT-4O表現最好。研究也提醒，目前問題範圍有限，未來應擴大題目多樣性並比較人類與AI的評分。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Enhancing patient-centered care with AI: a study of responses to neuroendocrine neoplasms queries.
以人工智慧提升以病人為中心的照護：針對神經內分泌腫瘤（neuroendocrine neoplasms）相關詢問的回應研究 Endocrine 2025-06-05

這項研究比較了三款AI（ChatGPT Plus、Copilot、Perplexity）在回答神經內分泌腫瘤管理問題的表現。ChatGPT Plus在清楚度上表現最好，但所有AI在複雜臨床問題上仍有困難。雖然AI有潛力成為資訊工具，但正確性不一，仍需醫師把關，確保病患溝通安全。 PubMed DOI

原始文章

站上相關主題文章列表