Assessment of Resident and AI Chatbot Performance on the University of Toronto Family Medicine Residency Progress Test: Comparative Study.
多倫多大學家庭醫學住院醫師和 AI 聊天機器人在住院醫師進度測試上表現的評估：比較研究。 JMIR Med Educ 2023-10-06

研究比較了GPT-3.5、GPT-4和家庭醫學住院醫師在醫學知識測驗的表現，結果發現GPT-4表現優異，甚至超越了最優秀的住院醫師。GPT-4能提供答案的邏輯理由，顯示出先進的推理能力。這顯示GPT-4在醫學教育中可能有價值，可用於製作考試題目和提供醫學知識。 PubMed DOI

Embracing the future-is artificial intelligence already better? A comparative study of artificial intelligence performance in diagnostic accuracy and decision-making.
掌握未來-人工智慧已經更好了嗎？人工智慧在診斷準確性和決策表現的比較研究。 Eur J Neurol 2024-03-14

研究比較了基於GPT-3.5的AI聊天機器人和神經學醫師在臨床案例中的診斷和決策表現。結果顯示，AI聊天機器人在神經學領域的表現相當不錯，正確率高達85%，並能提供96.1%的案例充分理由。研究指出AI可作為神經學臨床推理的輔助工具，未來應用前景廣闊。 PubMed DOI

Assessing ChatGPT 4.0's test performance and clinical diagnostic accuracy on USMLE STEP 2 CK and clinical case reports.
評估 ChatGPT 4.0 在美國醫師執照考試第二步臨床知識測驗（USMLE STEP 2 CK）和臨床病例報告中的測試表現和臨床診斷準確性。 Sci Rep 2024-04-23

研究發現，ChatGPT 4.0 在回答美國醫師執照考試問題及生成臨床鑑別診斷方面比 3.5 更準確。在74.6%案例中準確生成診斷，70.2%正確將診斷排第一。顯示ChatGPT在回答醫學問題上有進步，並展現臨床診斷能力。 PubMed DOI

Evaluating ChatGPT-4's Accuracy in Identifying Final Diagnoses Within Differential Diagnoses Compared With Those of Physicians: Experimental Study for Diagnostic Cases.
ChatGPT-4 在辨識差異診斷中最終診斷的準確性：與醫師對比的評估研究。診斷案例的實驗研究。 JMIR Form Res 2024-06-26

這項研究評估了由人工智慧驅動的聊天機器人GPT-4在醫學病例報告中從潛在診斷清單中識別最終診斷的能力。GPT-4在識別最終診斷方面與醫師表現出公平至良好的一致性，顯示其有潛力協助臨床決策。需要在真實世界情境和不同臨床環境中進行進一步驗證，以充分了解其在醫學診斷中的實用性。 PubMed DOI

Doctor AI? A pilot study examining responses of artificial intelligence to common questions asked by geriatric patients.
Doctor AI？一項針對老年患者常見問題的人工智慧反應的初步研究。 Front Artif Intell 2024-08-09

人工智慧技術在病患照護上有很大潛力，尤其在診斷、精神疾病治療和認知測試解讀等方面。雖然進展顯著，但仍需進一步研究其在醫療中的優缺點。一項研究比較了人工智慧（Chat-GPT 3.5）和臨床醫師對癡呆症相關問題的回答，結果顯示人工智慧在易懂性和深度上表現更佳，平均評分為4.6/5，而臨床醫師則為4.3、4.2和3.9。儘管人工智慧的回答質量高，但仍需注意錯誤資訊和數據安全等問題。總之，人工智慧在醫療溝通上有潛力，但需謹慎對待其限制。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Accuracy of Prospective Assessments of 4 Large Language Model Chatbot Responses to Patient Questions About Emergency Care: Experimental Comparative Study.
大型語言模型聊天機器人對患者急救問題的前瞻性評估準確性：實驗比較研究。 J Med Internet Res 2024-11-04

最近調查顯示，48%的消費者使用生成式AI查詢健康資訊，但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現，雖然它們在清晰度和可理解性上表現良好，但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間，且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範，並強調諮詢醫療專業人員的重要性，以避免潛在風險。 PubMed DOI

Bias Sensitivity in Diagnostic Decision-Making: Comparing ChatGPT with Residents.
診斷決策中的偏見敏感性：比較 ChatGPT 與住院醫師。 J Gen Intern Med 2024-11-07

這項研究比較了ChatGPT與265名醫學住院醫師在診斷準確性上的表現，特別關注臨床推理中的偏見影響。結果顯示，ChatGPT的整體診斷準確性與住院醫師相似，但對不同類型的偏見反應不同。當偏見來自病人病史時，ChatGPT的準確性顯著下降，而住院醫師的下降幅度較小。相對地，當偏見是情境性的，ChatGPT表現穩定，但住院醫師的準確性則下降更多。這顯示提升ChatGPT檢測和減輕偏見的能力，對其在臨床應用中至關重要。 PubMed DOI

How Soon Will Surgeons Become Mere Technicians? Chatbot Performance in Managing Clinical Scenarios.
外科醫生何時會成為單純的技術人員？聊天機器人在管理臨床情境中的表現。 J Thorac Cardiovasc Surg 2024-11-13

這項研究評估了四款熱門聊天機器人（ChatGPT-4、Bard、Perplexity 和 Claude 2）在與認證胸腔外科醫生進行考試的表現。結果顯示，聊天機器人的中位得分為1.06，而外科醫生為1.88，差異顯著（p=0.019）。外科醫生在大多數情境中表現優於聊天機器人，且聊天機器人的重大失誤率較高（0.50對0.19；p=0.016）。總體來看，研究認為聊天機器人的表現顯著不如外科醫生，提醒在臨床決策中應謹慎使用人工智慧。 PubMed DOI

Performance of ChatGPT in Ophthalmic Registration and Clinical Diagnosis: Cross-Sectional Study.
ChatGPT 在眼科註冊和臨床診斷中的表現：橫斷面研究。 J Med Internet Res 2024-11-14

這項研究探討了AI聊天機器人GPT-3.5和GPT-4.0在眼科門診註冊及診斷眼病的有效性。研究分析了208個臨床檔案，結果顯示： 1. **註冊建議**：GPT-3.5（63.5%）、GPT-4.0（77.9%）和住院醫師（69.2%）的準確性相似，無顯著差異。 2. **診斷準確性**：GPT-4.0和住院醫師在有病史及檢查的檔案中表現優於GPT-3.5。 3. **錯誤診斷**：GPT-4.0的錯誤診斷較少，顯示出精確度提升。 4. **整體表現**：GPT-4.0在鑑別診斷上接近住院醫師，顯示其潛在應用價值。結論認為，AI聊天機器人有助於提升眼科病人註冊，但需進一步驗證其在診斷中的應用。 PubMed DOI

原始文章

站上相關主題文章列表