原始文章

這項研究發現,AI聊天機器人在醫療互動相關回顧的表現和人類一樣準確,內容更完整、脈絡解釋也更好,但回答較長。人類則較少加入新內容。ZenoChat表現最佳,顯示大型語言模型能有效協助質性研究,加快整理證據的速度。 PubMed DOI


站上相關主題文章列表

這項研究探討生成式人工智慧(GenAI),特別是ChatGPT和Bard,在數位健康介入中對文本數據質性分析的影響。研究分析了40條針對HIV患者的SMS提醒,發現GenAI與人類編碼者的主題一致性為71%,但在演繹分析中,ChatGPT降至50%,Bard為58%。雖然GenAI能顯著縮短分析時間至20分鐘,但在人類編碼者在細緻主題識別上表現更佳。研究建議結合人類洞察與AI效率,以提升質性研究的效果,並強調未來需關注AI使用的倫理問題。 PubMed DOI

這項研究探討了ChatGPT-4在文獻回顧中的有效性,特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧,並根據準確性、反應時間等標準進行比較。結果顯示,GPT-4在反應時間和知識廣度上表現優異,但在深入理解和情境相關性上較弱。研究強調,雖然GPT-4可作為初步工具,但仍需專家評估以提升學術成果的準確性和情境豐富性,特別是在醫學研究領域。 PubMed DOI

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果,並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示,ChatGPT-4o的數據提取準確率高達92.4%,錯誤率僅5.2%。其數據提取的重現性也很強,兩次獨立會議的協議率達94.1%,但若論文缺少資訊,這個比例會降到77.2%。總體來看,ChatGPT-4o是一個可靠的數據提取工具,未來在數據總結方面有潛力發展。 PubMed DOI

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時,研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示,ChatGPT在大多數領域表現良好,但在可轉移性和分析深度上有所不同。六個關鍵主題包括:與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據,但深入分析仍需人類參與以增強深度。 PubMed DOI

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現,特別是在脊髓刺激後情緒功能的數據上。結果顯示,ChatGPT在標題和摘要篩選的準確率為70.4%,而全文篩選的準確率為68.4%。在數據整合方面,ChatGPT的準確率達到100%。雖然在篩選任務中表現中等,但在數據整合上表現優異。研究指出,人工智慧能提升系統性回顧的效率,但仍需人類監督以確保研究質量。 PubMed DOI

這項研究評估了GPT-4生成式AI工具aiChat在回答臨床問題的效果,並與醫學圖書館員的資料進行比較。研究團隊使用了圖書館員處理的臨床問題資料庫,並根據COSTAR框架設計標準化提示。結果顯示,aiChat在216個問題中,有83.3%被評為「正確」,但只有37%的參考文獻被確認有效。雖然AI表現出潛力,但許多參考文獻無法驗證,未評估新概念的準確性。作者建議這是系列研究的第一部分,探討AI如何融入醫學圖書館員的工作。 PubMed DOI

這項研究發現,AI聊天機器人產生的科學白話摘要比人類寫的更容易懂,對教育程度較低的人特別有幫助,品質也差不多。研究人員,尤其是非英語母語者,可以用AI來寫PLS,但還是要記得檢查內容有沒有錯。 PubMed DOI

這項研究發現,經過提示優化的AI聊天機器人(像Alice)在提供正確、準確和安全的健康資訊上,比標準版ChatGPT表現更好。不過,所有AI偶爾還是會出錯,所以只能當作輔助工具,不能取代醫療專業人員。未來若要廣泛應用,還需要持續改進並由人員監督。 PubMed DOI

這項研究比較GPT-4和中國腫瘤科醫師回答癌症病患問題的表現。結果顯示,GPT-4在病患衛教的答案較完整,正確性和安全性也不輸醫師,但在醫療決策上正確率較低,偶爾還會出現危險錯誤。醫師和病患對同理心的感受也不同。總結來說,GPT-4適合用於衛教,但在醫療決策上仍需醫師把關。 PubMed DOI

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI