原始文章

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI


站上相關主題文章列表

研究比較了患者對風濕病問題的大型語言模型(LLM)聊天機器人和醫師回答的評價。結果顯示,患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同,患者更難分辨AI生成的答案。總結來說,患者對AI回答的看法與醫師相似,但風濕病專家則認為AI回答表現較差。 PubMed DOI

研究評估大型語言模型對自閉症患者回應的效果,發現醫師回應更準確實用,而LLMs在同理心表現較佳。在將LLMs應用到臨床前,還需進一步研究和改進。 PubMed DOI

研究評估了大型語言模型在醫療保健領域的應用,尤其是在改善患者護理方面。使用MIMIC-III數據庫的電子健康記錄,測試了這些模型在識別特定疾病患者方面的效能。GPT-4在辨識COPD、CKD、PBC和Cancer Cachexia患者方面表現優異,而ChatGPT和LLaMA3則稍遜。儘管LLMs有潛力,但在臨床應用前仍需解決錯誤、解釋不足和倫理問題。進一步研究將有助於提升模型訓練和設計,以更好地應用於醫療保健。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT,對甲狀腺疾病病人問題的回答效果,並與醫生的回應進行比較。分析了來自Reddit的33個問題,並收集了醫生及LLMs(GPT-3.5和GPT-4)的回應。 結果顯示,GPT在準確性、質量和同理心上均優於醫生,特別是GPT-4表現最佳。這顯示LLMs能提供更準確、完整且具同理心的回應,可能有助於減輕醫生的工作負擔及降低職業倦怠。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

這項研究評估了幾個大型語言模型(LLM)聊天機器人,包括Google、Bard、GPT-3.5和GPT-4,對於慢性健康狀況的病人教育效果。研究針對高血壓、高脂血症、糖尿病、焦慮和情緒障礙等五個常見健康問題進行評分。結果顯示,GPT-3.5和GPT-4在內容的全面性和質量上表現優於Bard和Google,但後者的回應更易讀。整體來看,這項研究建議LLM工具在健康查詢中可能比傳統搜尋引擎提供更準確的信息,適合用於病人教育。 PubMed DOI

這篇論文探討如何利用大型語言模型(LLMs),像是ChatGPT-4,來改善醫療溝通,讓病人能選擇喜歡的溝通風格。研究基於Emanuel和Emanuel的四種溝通模式:父權式、資訊式、詮釋式和審議式,旨在滿足病人的需求與偏好。不過,論文也提到潛在風險,如可能加深偏見及LLMs的說服性,可能導致病人與醫療提供者之間的互動出現意外操控。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI