原始文章

這項初步研究發現,ChatGPT 3.5回答腦血管問題時,比醫師更完整、有同理心,正確率也差不多,但用詞較艱深,一般人可能看不懂。未來可考慮結合AI和醫師意見,幫助病患更好溝通。 PubMed DOI


站上相關主題文章列表

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

這項研究探討了人工智慧聊天機器人ChatGPT在麻醉學領域回應病人問題的效果。研究將ChatGPT的回應與認證麻醉醫師的回應進行比較,使用100個虛構臨床情境的麻醉問題。結果顯示,ChatGPT的整體質量評分與麻醉醫師相似,但同理心評分較高。不過,ChatGPT在科學共識一致性上表現不佳,且潛在傷害的比率較高。研究結論指出,雖然ChatGPT在醫療領域有潛力,但仍需改進以降低風險,並建議進一步研究其在複雜臨床情境中的有效性。 PubMed DOI

這項研究比較了AI語言模型ChatGPT與專家醫生在健康建議的有效性和安全性。研究涵蓋100個健康問題,結果顯示: 1. **同理心與實用性**:患者認為ChatGPT在同理心(4.18對2.7)和實用性(4.04對2.98)上表現更佳。 2. **正確性**:ChatGPT的正確性得分(4.51對3.55)也優於專家。 3. **潛在危害**:專家指出AI的有害建議比例較低,但患者對這些風險的認知不足。 4. **性別差異**:女性對同理心的評價高於男性。 總體而言,ChatGPT在協助患者解決健康問題上表現出色,但患者需謹慎識別潛在風險。 PubMed DOI

這項研究評估了ChatGPT在回答乳房重建問題上的有效性,並與醫療提供者進行比較。研究指出整形外科中病患與醫師溝通的挑戰,並探討了像ChatGPT這樣的人工智慧工具在改善互動上的潛力。 研究中向ChatGPT3、ChatGPT4、整形外科醫生及高級實踐提供者提出十個問題,評估其回應的準確性、同理心和可讀性。結果顯示,ChatGPT在同理心上得分較高,但可讀性低於醫療提供者,準確性則無顯著差異。 總體而言,研究建議ChatGPT可增強整形外科病患溝通,特別在同理心方面,但可讀性問題需改善,以達最佳效果。 PubMed DOI

這項研究評估了兩個AI聊天機器人,ChatGPT-3.5和Google Bard,提供的青光眼手術資訊的質量與可讀性。研究發現,ChatGPT-3.5的適當回答率高達96%,而Google Bard則為68%。不過,在可讀性方面,Google Bard的回答更易於理解,Flesch可讀性評分顯示其得分為57.6,遠高於ChatGPT-3.5的22.6。這顯示出準確性與可讀性之間的權衡,強調了清晰且準確的醫療資訊對患者的重要性,並呼籲進一步研究AI工具在醫療領域的有效性。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現,特別針對炎症性腸病(IBD),並與專科醫生的回應進行比較。結果顯示,ChatGPT的整體品質評分與專科醫生相似,且在信息完整性上有明顯優勢。雖然準確性無顯著差異,但在患者和醫生共同回應時,ChatGPT表現較差。研究建議在健康信息創建和評估中,應納入患者的參與,以提升質量和相關性。 PubMed DOI

這項研究評估了兩個AI聊天機器人,ChatGPT 3.5和Perplexity,針對Dravet症候群的問題回答表現。從醫療專業人員和照顧者收集了96個問題,並由癲癇專家評分。 主要發現包括:ChatGPT 3.5的準確率為66.7%,而Perplexity為81.3%。兩者在治療問題上表現不佳,完整性方面,ChatGPT 3.5為73.4%,Perplexity為75.7%。ChatGPT 3.5能修正55.6%的錯誤,Perplexity則為80%。可讀性上,Perplexity優於ChatGPT 3.5。研究顯示AI在醫療資訊提供上有潛力,但仍需改善。 PubMed DOI

這項研究評估了手部手術相關的線上醫療資訊,並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。 主要發現包括: 1. **可讀性**:Google的回應較易讀,平均在八年級水平,而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**:ChatGPT-4的可靠性與3.5相似,但低共識主題的可讀性較低,準確性差異不大。 3. **覆蓋範圍**:ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同,但在解剖學和病理生理學上相似。 總結來說,雖然ChatGPT能提供可靠的醫療資訊,但可讀性較差,醫療提供者需注意其局限性。 PubMed DOI

這項研究發現,ChatGPT在回答硬脊膜外類固醇注射相關問題時,整體來說資訊正確且清楚,尤其是針對一般性問題。不過,AI在展現同理心方面表現有限,有時也會離題。未來若要在臨床上廣泛應用,還需要更精確的提問設計和更多研究來確保病人安全。 PubMed DOI