原始文章

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究評估了ChatGPT-4對前列腺癌常見問題的回答質量。研究人員制定了八個問題,並由四位評審使用多種工具評估AI的回答。結果顯示,ChatGPT-4的可理解性得分很高,但可讀性卻顯示「難以閱讀」,平均達到11年級的水平。雖然大部分參考文獻都來自可信來源,但仍有兩個例子被識別為參考幻覺。總體來看,ChatGPT-4在患者教育中提供了一般可靠的回答,但在可讀性和準確性上仍需改進。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

這項研究探討了患者對人工智慧(AI),特別是大型語言模型的信心,於臨床泌尿科環境中進行。300名患者與基於GPT-4的聊天機器人互動後,填寫調查,評估AI與泌尿科醫生在歷史採集、診斷、治療建議等方面的表現。結果顯示,患者偏好AI在諮詢時間分配,但在其他能力上更信任醫生,尤其是治療建議和減輕焦慮。年齡對AI信心無影響,顯示技術對各年齡層皆易於接觸。研究強調AI是人類專業知識的補充,而非替代品。 PubMed DOI

這項研究評估了ChatGPT在生成前列腺癌相關醫療回應的表現。研究期間為2023年4月至6月,超過700名醫療腫瘤科和泌尿科醫師參與,且他們不知是在評估AI。結果顯示,602名受訪者在9個問題中有7個偏好AI生成的回應,但仍認為醫療網站更可信。98名受訪者對AI生成的複雜問題回應給予高評價,顯示臨床醫師欣賞AI的清晰度,但仍偏好傳統網站作為資訊來源。這提供了對臨床醫師評估AI內容的見解,並為未來的AI驗證研究提出了評估標準。 PubMed DOI

大型語言模型(LLM)聊天機器人被用來提供泌尿科疾病資訊,特別是良性前列腺增生手術。研究評估了四個聊天機器人的資訊質量,結果顯示未提示時資訊質量中等,但使用特定提示後顯著改善。回應準確性高達98%,但可讀性較差,超過大多數美國人的閱讀水平。總體來看,這些聊天機器人有助於患者教育,但需注意提示方式和語言複雜性,以提升其效益。 PubMed DOI

這項研究顯示ChatGPT-4o在提升病人手術教育方面的潛力。每年全球有約3億次手術,手術後30天內死亡人數達420萬,因此有效的病人教育非常重要。研究針對六種手術程序的常見問題進行音頻回應,並由外科醫生評估。 主要發現包括: - ChatGPT-4o在準確性(4.12/5)和相關性(4.46/5)上表現優異,潛在危害性低(0.22/5)。 - 手術後的回應準確性和相關性優於手術前。 - 小型手術的回應雖少,但準確性高於大型手術。 研究建議將GPT-4o整合進醫院系統,以提供即時可靠的信息,提升病人滿意度和知情決策能力。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLM)聊天機器人,包括Google、Bard、GPT-3.5和GPT-4,對於慢性健康狀況的病人教育效果。研究針對高血壓、高脂血症、糖尿病、焦慮和情緒障礙等五個常見健康問題進行評分。結果顯示,GPT-3.5和GPT-4在內容的全面性和質量上表現優於Bard和Google,但後者的回應更易讀。整體來看,這項研究建議LLM工具在健康查詢中可能比傳統搜尋引擎提供更準確的信息,適合用於病人教育。 PubMed DOI