原始文章

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI


站上相關主題文章列表

醫師評估了ChatGPT生成的醫學問題答案的準確性和完整性,發現準確性表現不錯,但完整性稍有不足。模型在各種難度問題中的表現有所差異,但整體表現仍然不錯。重新評估後,得分較低的問題有改善。雖然ChatGPT提供的資訊大多正確,但仍需進一步研究和模型開發,以確保在醫學領域的驗證。 PubMed DOI

研究發現三款大型語言模型在醫療決策上的表現,ChatGPT最優,其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議,對初級醫生學習和臨床決策有潛力,但還需更多整合到教育中。 PubMed DOI

研究比較三款熱門的人工智慧聊天機器人在處理網上論壇病人問題時,區分醫療緊急和非緊急情況的準確度。機器人傾向將更多情況當成緊急,難以分辨非緊急情況。Google Bard在區分真正緊急和非緊急情況上表現最好。總結來說,這些機器人在準確判斷緊急情況方面還有進步的空間,但有潛力成為緊急護理工具,改善病人結果,提供緩解緊急服務壓力的解決方案。 PubMed DOI

研究比較了知名的人工智慧聊天機器人在區分嚴重和較不嚴重的醫療症狀上的表現,並評估了它們的準確性和具有同理心的溝通方式。研究分析了三個聊天機器人對醫療緊急情況和非緊急情況的案例報告。這些聊天機器人提供了合理的診斷和緊急性評估,但在回應的詳情和長度上有所不同。儘管它們提供指導,但在廣泛應用於醫療問題之前,仍需要謹慎和進一步研究。 PubMed DOI

越來越多病患用AI聊天機器人查檢驗結果,因為方便又好用。但研究發現,聊天機器人解釋不夠清楚、常錯誤。雖然有同理心,處理複雜問題時容易出錯,有時還會誤判病情。雖有免責聲明,病患仍可能相信錯誤資訊。必須進一步研究改進,確保病患了解並避免給醫療系統帶來負擔。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究評估了ChatGPT 3.5在提供乳癌資訊的有效性。研究人員提出20個常見問題,並根據準確性、臨床一致性和可讀性進行評估。結果顯示,平均準確性得分為1.88,臨床一致性得分為2.79,回答平均字數為310字,但可讀性較差,Flesch Kincaid指數為37.9。研究發現,24%的回答是錯誤的,41%的回答缺乏真實參考文獻,建議病患在依賴ChatGPT獲取醫療資訊時要特別謹慎。 PubMed DOI

這項研究評估了四款人工智慧聊天機器人對心肺復甦術(CPR)的回應質量,包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題,獲得400個回應,並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示,所有機器人的回應可讀性均超過六年級,其中Bard最佳,ChatGPT-3.5最難閱讀。研究指出,提升病人教育材料的質量和可讀性,可能有助於提高理解能力及病人存活率。 PubMed DOI

這項研究評估了ChatGPT 3.5和4在提供2021年歐洲復甦委員會(ERC)指導方針的準確性。結果顯示,兩個版本都未能涵蓋許多關鍵訊息(ChatGPT-3.5為123條,ChatGPT-4為132條)。雖然大部分生成的內容與指導方針一致(ChatGPT-3.5為77%,ChatGPT-4為84%),但許多回應仍顯得膚淺或不正確。研究強調,醫療專業人員不應僅依賴AI聊天機器人,應參考原始資料以獲得更全面的理解,因為AI的訓練數據可能缺乏最新的資訊。 PubMed DOI

這項研究比較了AI語言模型ChatGPT與專家醫生在健康建議的有效性和安全性。研究涵蓋100個健康問題,結果顯示: 1. **同理心與實用性**:患者認為ChatGPT在同理心(4.18對2.7)和實用性(4.04對2.98)上表現更佳。 2. **正確性**:ChatGPT的正確性得分(4.51對3.55)也優於專家。 3. **潛在危害**:專家指出AI的有害建議比例較低,但患者對這些風險的認知不足。 4. **性別差異**:女性對同理心的評價高於男性。 總體而言,ChatGPT在協助患者解決健康問題上表現出色,但患者需謹慎識別潛在風險。 PubMed DOI