原始文章

這項研究評估了幾個大型語言模型(LLM)聊天機器人,包括Google、Bard、GPT-3.5和GPT-4,對於慢性健康狀況的病人教育效果。研究針對高血壓、高脂血症、糖尿病、焦慮和情緒障礙等五個常見健康問題進行評分。結果顯示,GPT-3.5和GPT-4在內容的全面性和質量上表現優於Bard和Google,但後者的回應更易讀。整體來看,這項研究建議LLM工具在健康查詢中可能比傳統搜尋引擎提供更準確的信息,適合用於病人教育。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究顯示ChatGPT-4o在提升病人手術教育方面的潛力。每年全球有約3億次手術,手術後30天內死亡人數達420萬,因此有效的病人教育非常重要。研究針對六種手術程序的常見問題進行音頻回應,並由外科醫生評估。 主要發現包括: - ChatGPT-4o在準確性(4.12/5)和相關性(4.46/5)上表現優異,潛在危害性低(0.22/5)。 - 手術後的回應準確性和相關性優於手術前。 - 小型手術的回應雖少,但準確性高於大型手術。 研究建議將GPT-4o整合進醫院系統,以提供即時可靠的信息,提升病人滿意度和知情決策能力。 PubMed DOI

這項研究探討大型語言模型(LLMs)如ChatGPT與傳統搜尋引擎如Google在獲取健康資訊的使用情況。調查顯示,95.6%的人使用搜尋引擎查詢健康問題,但只有32.6%的人使用LLMs。男性、黑人和亞裔更常使用LLMs,且健康狀況較好和技術熟練度高的人也較常使用。 後續調查中,大多數LLM使用者仍偏好搜尋引擎,認為LLMs的實用性不如搜尋引擎,但對其負面感受較少,認為LLMs更具人性化。總體來看,搜尋引擎仍是主要工具,但LLMs的正面評價顯示其未來增長潛力。 PubMed DOI

糖尿病是全球健康的重要議題,醫療人員對其知識水平參差不齊,顯示出有效訓練的必要性。大型語言模型(LLMs)如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現,結果顯示ChatGPT-4.0在英語考試中通過率達62.50%,在中文考試中也表現優異,準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究探討使用者對大型語言模型(LLM)驅動的聊天機器人(如ChatGPT)提供的健康資訊的看法,與傳統線上資源相比。結果顯示,98%的參與者仍主要依賴搜尋引擎尋找健康資訊,只有21.2%使用聊天機器人。大多數人尋求健康狀況資訊,但對於用藥建議和自我診斷的需求較低。雖然LLM聊天機器人逐漸受到年輕族群的青睞,但使用者在遵循建議時仍較為謹慎。研究強調提高準確性和透明度對於健康資訊的安全性至關重要。 PubMed DOI

這項研究發現,採用檢索增強技術的AI聊天機器人(如ChatGPT-4o Deep Research等)在提供結節病資訊時,比一般AI更準確可靠。不過,他們的回答多半太艱深,病人不易看懂,而且給的實際建議也不夠明確。整體來說,AI雖然能提供高品質資訊,但在易讀性和實用性上還有進步空間。 PubMed DOI