Assessing the Accuracy and Reliability of AI-Generated Medical Responses: An Evaluation of the Chat-GPT Model.
評估 AI 生成的醫學回應的準確性和可靠性：對 Chat-GPT 模型的評估。 Res Sq 2023-10-20

醫師評估了ChatGPT生成的醫學問題答案的準確性和完整性，發現準確性表現不錯，但完整性稍有不足。模型在各種難度問題中的表現有所差異，但整體表現仍然不錯。重新評估後，得分較低的問題有改善。雖然ChatGPT提供的資訊大多正確，但仍需進一步研究和模型開發，以確保在醫學領域的驗證。 PubMed DOI

Investigating the impact of innovative AI chatbot on post-pandemic medical education and clinical assistance: a comprehensive analysis.
探討創新人工智慧聊天機器人對後疫情醫學教育和臨床協助的影響：全面分析。 ANZ J Surg 2024-02-27

研究發現三款大型語言模型在醫療決策上的表現，ChatGPT最優，其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議，對初級醫生學習和臨床決策有潛力，但還需更多整合到教育中。 PubMed DOI

Efficacy of AI Chats to Determine an Emergency: A Comparison Between OpenAI's ChatGPT, Google Bard, and Microsoft Bing AI Chat.
AI聊天機器人在判斷緊急情況的效能：OpenAI的ChatGPT、Google Bard和Microsoft Bing AI Chat之比較。 Cureus 2023-09-21

研究比較三款熱門的人工智慧聊天機器人在處理網上論壇病人問題時，區分醫療緊急和非緊急情況的準確度。機器人傾向將更多情況當成緊急，難以分辨非緊急情況。Google Bard在區分真正緊急和非緊急情況上表現最好。總結來說，這些機器人在準確判斷緊急情況方面還有進步的空間，但有潛力成為緊急護理工具，改善病人結果，提供緩解緊急服務壓力的解決方案。 PubMed DOI

Performance of Artificial Intelligence (AI)-Powered Chatbots in the Assessment of Medical Case Reports: Qualitative Insights From Simulated Scenarios.
人工智慧（AI）驅動的聊天機器人在醫學病例報告評估中的表現：來自模擬情境的定性見解。 Cureus 2024-03-12

研究比較了知名的人工智慧聊天機器人在區分嚴重和較不嚴重的醫療症狀上的表現，並評估了它們的準確性和具有同理心的溝通方式。研究分析了三個聊天機器人對醫療緊急情況和非緊急情況的案例報告。這些聊天機器人提供了合理的診斷和緊急性評估，但在回應的詳情和長度上有所不同。儘管它們提供指導，但在廣泛應用於醫療問題之前，仍需要謹慎和進一步研究。 PubMed DOI

Comparison of ChatGPT, Gemini, and Le Chat with physician interpretations of medical laboratory questions from an online health forum.
ChatGPT、Gemini 和 Le Chat 與醫師對線上健康論壇上醫學實驗室問題的解釋比較。 Clin Chem Lab Med 2024-05-28

越來越多病患用AI聊天機器人查檢驗結果，因為方便又好用。但研究發現，聊天機器人解釋不夠清楚、常錯誤。雖然有同理心，處理複雜問題時容易出錯，有時還會誤判病情。雖有免責聲明，病患仍可能相信錯誤資訊。必須進一步研究改進，確保病患了解並避免給醫療系統帶來負擔。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Generative artificial intelligence as a source of breast cancer information for patients: Proceed with caution.
生成式人工智慧作為乳腺癌患者資訊來源：謹慎行事。 Cancer 2024-08-30

這項研究評估了ChatGPT 3.5在提供乳癌資訊的有效性。研究人員提出20個常見問題，並根據準確性、臨床一致性和可讀性進行評估。結果顯示，平均準確性得分為1.88，臨床一致性得分為2.79，回答平均字數為310字，但可讀性較差，Flesch Kincaid指數為37.9。研究發現，24%的回答是錯誤的，41%的回答缺乏真實參考文獻，建議病患在依賴ChatGPT獲取醫療資訊時要特別謹慎。 PubMed DOI

Assessing the readability, reliability, and quality of artificial intelligence chatbot responses to the 100 most searched queries about cardiopulmonary resuscitation: An observational study.
評估人工智慧聊天機器人對心肺復甦術最常搜尋的100個問題的可讀性、可靠性和質量：一項觀察性研究。 Medicine (Baltimore) 2024-09-11

這項研究評估了四款人工智慧聊天機器人對心肺復甦術（CPR）的回應質量，包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題，獲得400個回應，並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示，所有機器人的回應可讀性均超過六年級，其中Bard最佳，ChatGPT-3.5最難閱讀。研究指出，提升病人教育材料的質量和可讀性，可能有助於提高理解能力及病人存活率。 PubMed DOI

Evaluating the accuracy and reliability of AI chatbots in disseminating the content of current resuscitation guidelines: a comparative analysis between the ERC 2021 guidelines and both ChatGPTs 3.5 and 4.
評估 AI 聊天機器人在傳播當前復甦指導方針內容的準確性和可靠性：ERC 2021 指導方針與 ChatGPT 3.5 和 4 的比較分析。 Scand J Trauma Resusc Emerg Med 2024-09-26

這項研究評估了ChatGPT 3.5和4在提供2021年歐洲復甦委員會（ERC）指導方針的準確性。結果顯示，兩個版本都未能涵蓋許多關鍵訊息（ChatGPT-3.5為123條，ChatGPT-4為132條）。雖然大部分生成的內容與指導方針一致（ChatGPT-3.5為77%，ChatGPT-4為84%），但許多回應仍顯得膚淺或不正確。研究強調，醫療專業人員不應僅依賴AI聊天機器人，應參考原始資料以獲得更全面的理解，因為AI的訓練數據可能缺乏最新的資訊。 PubMed DOI

"Doctor ChatGPT, Can You Help Me?" The Patient's Perspective: Cross-Sectional Study.
「醫生 ChatGPT，您能幫我嗎？」病人的視角：橫斷面研究。 J Med Internet Res 2024-10-01

這項研究比較了AI語言模型ChatGPT與專家醫生在健康建議的有效性和安全性。研究涵蓋100個健康問題，結果顯示： 1. **同理心與實用性**：患者認為ChatGPT在同理心（4.18對2.7）和實用性（4.04對2.98）上表現更佳。 2. **正確性**：ChatGPT的正確性得分（4.51對3.55）也優於專家。 3. **潛在危害**：專家指出AI的有害建議比例較低，但患者對這些風險的認知不足。 4. **性別差異**：女性對同理心的評價高於男性。總體而言，ChatGPT在協助患者解決健康問題上表現出色，但患者需謹慎識別潛在風險。 PubMed DOI

原始文章

站上相關主題文章列表