Comparing the Efficacy and Efficiency of Human and Generative AI: Qualitative Thematic Analyses.
比較人類與生成式人工智慧的效能與效率：質性主題分析。 JMIR AI 2024-08-02

這項研究探討生成式人工智慧（GenAI），特別是ChatGPT和Bard，在數位健康介入中對文本數據質性分析的影響。研究分析了40條針對HIV患者的SMS提醒，發現GenAI與人類編碼者的主題一致性為71%，但在演繹分析中，ChatGPT降至50%，Bard為58%。雖然GenAI能顯著縮短分析時間至20分鐘，但在人類編碼者在細緻主題識別上表現更佳。研究建議結合人類洞察與AI效率，以提升質性研究的效果，並強調未來需關注AI使用的倫理問題。 PubMed DOI

Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果，並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示，ChatGPT-4o的數據提取準確率高達92.4%，錯誤率僅5.2%。其數據提取的重現性也很強，兩次獨立會議的協議率達94.1%，但若論文缺少資訊，這個比例會降到77.2%。總體來看，ChatGPT-4o是一個可靠的數據提取工具，未來在數據總結方面有潛力發展。 PubMed DOI

A mixed-methods study comparing human-led and ChatGPT-driven qualitative analysis in medical education research.
比較人類主導與 ChatGPT 驅動的醫學教育研究質性分析的混合方法研究。 Nagoya J Med Sci 2025-01-09

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時，研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示，ChatGPT在大多數領域表現良好，但在可轉移性和分析深度上有所不同。六個關鍵主題包括：與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據，但深入分析仍需人類參與以增強深度。 PubMed DOI

Human versus artificial intelligence: evaluating ChatGPT's performance in conducting published systematic reviews with meta-analysis in chronic pain research.
人類與人工智慧：評估 ChatGPT 在慢性疼痛研究中進行已發表的系統性回顧與統合分析的表現。 Reg Anesth Pain Med 2025-02-16

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現，特別是在脊髓刺激後情緒功能的數據上。結果顯示，ChatGPT在標題和摘要篩選的準確率為70.4%，而全文篩選的準確率為68.4%。在數據整合方面，ChatGPT的準確率達到100%。雖然在篩選任務中表現中等，但在數據整合上表現優異。研究指出，人工智慧能提升系統性回顧的效率，但仍需人類監督以確保研究質量。 PubMed DOI

Evaluating a large language model's ability to answer clinicians' requests for evidence summaries.
評估大型語言模型回答臨床醫師對證據摘要請求的能力。 J Med Libr Assoc 2025-02-20

這項研究評估了GPT-4生成式AI工具aiChat在回答臨床問題的效果，並與醫學圖書館員的資料進行比較。研究團隊使用了圖書館員處理的臨床問題資料庫，並根據COSTAR框架設計標準化提示。結果顯示，aiChat在216個問題中，有83.3%被評為「正確」，但只有37%的參考文獻被確認有效。雖然AI表現出潛力，但許多參考文獻無法驗證，未評估新概念的準確性。作者建議這是系列研究的第一部分，探討AI如何融入醫學圖書館員的工作。 PubMed DOI

Assessing the Capability of Large Language Model Chatbots in Generating Plain Language Summaries.
大型語言模型聊天機器人在產生淺顯易懂摘要之能力評估 Cureus 2025-04-22

這項研究發現，AI聊天機器人產生的科學白話摘要比人類寫的更容易懂，對教育程度較低的人特別有幫助，品質也差不多。研究人員，尤其是非英語母語者，可以用AI來寫PLS，但還是要記得檢查內容有沒有錯。 PubMed DOI

Evaluation of artificial intelligence (AI) chatbots for providing sexual health information: a consensus study using real-world clinical queries.
人工智慧（AI）聊天機器人在提供性健康資訊方面的評估：一項基於真實臨床提問的共識研究 BMC Public Health 2025-05-15

這項研究發現，經過提示優化的AI聊天機器人（像Alice）在提供正確、準確和安全的健康資訊上，比標準版ChatGPT表現更好。不過，所有AI偶爾還是會出錯，所以只能當作輔助工具，不能取代醫療專業人員。未來若要廣泛應用，還需要持續改進並由人員監督。 PubMed DOI

Application of AI Chatbot in Responding to Asynchronous Text-Based Messages From Patients With Cancer: Comparative Study.
AI 聊天機器人在回應癌症病患非同步文字訊息的應用：比較性研究 J Med Internet Res 2025-05-21

這項研究比較GPT-4和中國腫瘤科醫師回答癌症病患問題的表現。結果顯示，GPT-4在病患衛教的答案較完整，正確性和安全性也不輸醫師，但在醫療決策上正確率較低，偶爾還會出現危險錯誤。醫師和病患對同理心的感受也不同。總結來說，GPT-4適合用於衛教，但在醫療決策上仍需醫師把關。 PubMed DOI

Chatbots' Role in Generating Single Best Answer Questions for Undergraduate Medical Student Assessment: Comparative Analysis.
Chatbots 在產生醫學生單一最佳答案題目中的角色：比較分析 JMIR Med Educ 2025-05-30

這項研究發現，不同AI聊天機器人在幫醫學生出單一最佳答案題目時，品質和一致性都有差異，沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查，無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

原始文章

站上相關主題文章列表