Experimenting With the New Frontier: Artificial Intelligence-Powered Chat Bots in Hand Surgery.
探索新領域：人工智慧驅動的聊天機器人在手部外科的應用。 Hand (N Y) 2024-03-25

研究評估人工智慧對手部手術問題回答的正確度，透過ChatGPT提問。兩位手外醫檢視回答，發現多數正確，但意見有分歧。研究顯示語言模型可能影響患者觀感，需確保安全並避免錯誤。外科醫師與AI開發者合作，提供最佳照護。 PubMed DOI

Evaluation of AI-generated responses by different artificial intelligence chatbots to the clinical decision-making case-based questions in oral and maxillofacial surgery.
口腔顎面外科臨床決策案例問題對不同人工智慧聊天機器人生成的回應的評估。 Oral Surg Oral Med Oral Pathol Oral Radiol 2024-04-03

研究比較了不同聊天機器人在口腔顎面外科問題上的表現，結果顯示它們的準確性普遍不高，GPT-4在開放式問題上表現較好。這表明聊天機器人在臨床決策中可能不夠可靠。 PubMed DOI

Chatbot Reliability in Managing Thoracic Surgical Clinical Scenarios.
聊天機器人在處理胸部外科臨床情境中的可靠性。 Ann Thorac Surg 2024-04-04

研究評估四個聊天機器人在處理胸部外科臨床情境的表現，結果顯示它們未達到及格標準，準確性和可靠性有待提升。 PubMed DOI

ChatGPT Performance on the American Shoulder and Elbow Surgeons Maintenance of Certification Exam.
ChatGPT 在美國肩膀和肘部外科醫師持續認證考試中的表現。 J Shoulder Elbow Surg 2024-04-05

研究比較LLMs和外科醫師在專業考試上的表現，結果顯示人類優於LLMs，但ChatGPT展現出分析骨科資訊的能力。儘管人類整體表現更好，LLMs有潛力在深度學習進步下提升，可能與外科醫師表現匹敵。 PubMed DOI

AI Versus MD: Evaluating the surgical decision-making accuracy of ChatGPT-4.
AI 對抗醫生：評估 ChatGPT-4 在手術決策準確性。 Surgery 2024-05-20

研究發現ChatGPT-4在外科決策方面表現優於初級醫師，與高年級醫師相當。ChatGPT-4平均得分為79.2%，初級醫師66.8%，高年級醫師76.0%，主治醫師77.6%。特別在手術和檢查方面表現出色，可作為教育工具幫助初級醫師學習外科決策。 PubMed DOI

Comparing ChatGPT and a Single Anesthesiologist's Responses to Common Patient Questions: An Exploratory Cross-Sectional Survey of a Panel of Anesthesiologists.
比較 ChatGPT 與單一麻醉醫師對常見病人問題的回應：一項麻醉醫師小組的探索性橫斷面調查。 J Med Syst 2024-08-22

這項研究探討了人工智慧聊天機器人ChatGPT在麻醉學領域回應病人問題的效果。研究將ChatGPT的回應與認證麻醉醫師的回應進行比較，使用100個虛構臨床情境的麻醉問題。結果顯示，ChatGPT的整體質量評分與麻醉醫師相似，但同理心評分較高。不過，ChatGPT在科學共識一致性上表現不佳，且潛在傷害的比率較高。研究結論指出，雖然ChatGPT在醫療領域有潛力，但仍需改進以降低風險，並建議進一步研究其在複雜臨床情境中的有效性。 PubMed DOI

ChatGPT, Bard, and Bing Chat are large language processing models that answered OITE questions with a similar accuracy to first-year orthopaedic surgery residents.
ChatGPT、Bard 和 Bing Chat 是大型語言處理模型，其回答 OITE 問題的準確性與一年級骨科住院醫師相似。 Arthroscopy 2024-08-29

這項研究評估了三個AI模型—ChatGPT、Bard和BingChat—在骨科住院醫師訓練考試中的表現。結果顯示，ChatGPT的準確率為46.3%，BingChat為52.4%，Bard為51.4%。排除圖像問題後，準確率有所提升，ChatGPT達49.1%，BingChat 53.5%，Bard 56.8%。相比之下，醫學生的表現為30.8%，而PGY1至PGY5住院醫師的準確率分別為53.1%到71.9%。整體來看，這些AI模型的表現與第一年住院醫師相似。 PubMed DOI

The doc versus the bot: A pilot study to assess the quality and accuracy of physician and chatbot responses to clinical questions in gynecologic oncology.
醫生與聊天機器人：一項評估醫生與聊天機器人對婦科腫瘤學臨床問題的回答質量與準確性的初步研究。 Gynecol Oncol Rep 2024-09-03

這項研究評估了婦科腫瘤學中醫生與AI聊天機器人（如ChatGPT和Bard）對常見臨床問題的回答質量。研究中，五位醫生和兩個AI平台回答了十個問題。結果顯示，醫生的回答在76.7%的情況下被評為最佳，明顯優於ChatGPT（10%）和Bard（13.3%）。醫生的準確率為86.7%，而AI的準確率則分別為60%和43%。這顯示醫生的回答質量和準確性高於AI，並提醒大家在尋求醫療建議時要謹慎使用AI。 PubMed DOI

The future of AI clinicians: assessing the modern standard of chatbots and their approach to diagnostic uncertainty.
AI 臨床醫生的未來：評估現代聊天機器人的標準及其對診斷不確定性的應對方式。 BMC Med Educ 2024-10-14

這項研究評估了AI聊天機器人GPT-4o和Claude-3在面對醫療診斷不確定性時的表現，與320名家庭醫學住院醫師相比。結果顯示，住院醫師的正確率為61.1%至63.3%，而Claude-3和GPT-4o的正確率分別為57.7%和53.3%。Claude-3的回應時間較長，回答字數也較多，而GPT-4o的錯誤多為邏輯性錯誤。整體來看，雖然AI在醫學知識上有潛力，但在診斷不確定性方面仍不及人類醫師。 PubMed DOI

Experimental assessment of the performance of artificial intelligence in solving multiple-choice board exams in cardiology.
人工智慧在解決心臟病學多選題考試中的表現實驗評估。 Swiss Med Wkly 2024-10-28

這項研究評估了不同人工智慧聊天機器人在心臟科專科考試中的表現，並與人類研究員進行比較。研究使用了88道選擇題，結果顯示所有36名研究員都通過考試，且中位數準確率高達98%。相比之下，聊天機器人的表現參差不齊，只有Jasper quality達到最低通過率73%。大多數聊天機器人的Top-1準確率僅47%，Top-2為67%。只有Jasper quality和ChatGPT plus 4.0通過考試。結果顯示，現階段的聊天機器人在醫學考試中表現不佳，但未來可能會有改進的潛力。 PubMed DOI

原始文章

站上相關主題文章列表