原始文章

這項研究評估了幾個大型語言模型(LLM)聊天機器人,包括Google、Bard、GPT-3.5和GPT-4,對於慢性健康狀況的病人教育效果。研究針對高血壓、高脂血症、糖尿病、焦慮和情緒障礙等五個常見健康問題進行評分。結果顯示,GPT-3.5和GPT-4在內容的全面性和質量上表現優於Bard和Google,但後者的回應更易讀。整體來看,這項研究建議LLM工具在健康查詢中可能比傳統搜尋引擎提供更準確的信息,適合用於病人教育。 PubMed DOI


站上相關主題文章列表

研究發現三款大型語言模型在醫療決策上的表現,ChatGPT最優,其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議,對初級醫生學習和臨床決策有潛力,但還需更多整合到教育中。 PubMed DOI

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果,結果發現Google Bard易讀性高,但適當性稍差;ChatGPT-3.5和ChatGPT-4在適當性表現較好,尤其ChatGPT-4更穩定。這些模型被認為無害,對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力,但仍需改進和考慮道德問題,未來研究應著重於安全整合策略。 PubMed DOI

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT,對甲狀腺疾病病人問題的回答效果,並與醫生的回應進行比較。分析了來自Reddit的33個問題,並收集了醫生及LLMs(GPT-3.5和GPT-4)的回應。 結果顯示,GPT在準確性、質量和同理心上均優於醫生,特別是GPT-4表現最佳。這顯示LLMs能提供更準確、完整且具同理心的回應,可能有助於減輕醫生的工作負擔及降低職業倦怠。 PubMed DOI

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究探討大型語言模型(LLMs)如ChatGPT與傳統搜尋引擎如Google在獲取健康資訊的使用情況。調查顯示,95.6%的人使用搜尋引擎查詢健康問題,但只有32.6%的人使用LLMs。男性、黑人和亞裔更常使用LLMs,且健康狀況較好和技術熟練度高的人也較常使用。 後續調查中,大多數LLM使用者仍偏好搜尋引擎,認為LLMs的實用性不如搜尋引擎,但對其負面感受較少,認為LLMs更具人性化。總體來看,搜尋引擎仍是主要工具,但LLMs的正面評價顯示其未來增長潛力。 PubMed DOI

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究探討使用者對大型語言模型(LLM)驅動的聊天機器人(如ChatGPT)提供的健康資訊的看法,與傳統線上資源相比。結果顯示,98%的參與者仍主要依賴搜尋引擎尋找健康資訊,只有21.2%使用聊天機器人。大多數人尋求健康狀況資訊,但對於用藥建議和自我診斷的需求較低。雖然LLM聊天機器人逐漸受到年輕族群的青睞,但使用者在遵循建議時仍較為謹慎。研究強調提高準確性和透明度對於健康資訊的安全性至關重要。 PubMed DOI