Investigating the impact of innovative AI chatbot on post-pandemic medical education and clinical assistance: a comprehensive analysis.
探討創新人工智慧聊天機器人對後疫情醫學教育和臨床協助的影響：全面分析。 ANZ J Surg 2024-02-27

研究發現三款大型語言模型在醫療決策上的表現，ChatGPT最優，其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議，對初級醫生學習和臨床決策有潛力，但還需更多整合到教育中。 PubMed DOI

AI in the ED: Assessing the efficacy of GPT models vs. physicians in medical score calculation.
急診室中的人工智慧：評估 GPT 模型與醫師在醫學評分計算中的效力。 Am J Emerg Med 2024-03-06

研究比較了GPT-3.5和GPT-4與人類醫師在急診部門計算醫學分數的表現。結果顯示，雖然人工智慧模型有些表現接近人類醫師，但在預測能力上，人類醫師的專業知識仍然更勝一籌。建議將人工智慧當作輔助工具，而非取代急診部門等重要環境中的人類專業知識。未來需進一步研究，發揮人工智慧在急診醫學領域的潛力。 PubMed DOI

Doctor AI? A pilot study examining responses of artificial intelligence to common questions asked by geriatric patients.
Doctor AI？一項針對老年患者常見問題的人工智慧反應的初步研究。 Front Artif Intell 2024-08-09

人工智慧技術在病患照護上有很大潛力，尤其在診斷、精神疾病治療和認知測試解讀等方面。雖然進展顯著，但仍需進一步研究其在醫療中的優缺點。一項研究比較了人工智慧（Chat-GPT 3.5）和臨床醫師對癡呆症相關問題的回答，結果顯示人工智慧在易懂性和深度上表現更佳，平均評分為4.6/5，而臨床醫師則為4.3、4.2和3.9。儘管人工智慧的回答質量高，但仍需注意錯誤資訊和數據安全等問題。總之，人工智慧在醫療溝通上有潛力，但需謹慎對待其限制。 PubMed DOI

Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
大型語言模型對診斷推理的影響：一項隨機臨床試驗。 JAMA Netw Open 2024-10-28

這項研究評估大型語言模型（LLM）對醫師診斷推理的影響，與傳統資源相比。研究於2023年11月29日至12月29日進行，參與者來自多所學術機構的醫師，分為兩組：一組使用LLM和傳統資源，另一組僅用傳統資源。結果顯示，LLM組的中位診斷推理分數為76%，略高於傳統組的74%，但差異不顯著（P = .60）。不過，LLM的單獨表現比傳統資源高出16個百分點（P = .03），顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

Transforming emergency triage: A preliminary, scenario-based cross-sectional study comparing artificial intelligence models and clinical expertise for enhanced accuracy.
轉變緊急分診：一項初步的情境基礎橫斷面研究，比較人工智慧模型與臨床專業知識以提高準確性。 Bratisl Lek Listy 2024-11-02

這項研究探討了緊急情境中的分診決策，對比醫療專業人員與人工智慧（AI）模型的表現。研究發現，醫療人員的準確率（30.7%）高於AI模型（25.5%），顯示人類專業知識在分診中仍然更可靠。研究涉及50個虛擬病人情境，參與者使用土耳其衛生部的顏色編碼系統進行分類。雖然AI能快速分析數據，但在此情境下表現不如人類。作者建議結合AI與人類專業知識，以提升分診系統的效率。 PubMed DOI

PICOT questions and search strategies formulation: A novel approach using artificial intelligence automation.
使用人工智慧自動化的PICOT問題與搜尋策略的制定：一種新穎的方法。 J Nurs Scholarsh 2024-11-25

這項研究評估了基於人工智慧的大型語言模型（如ChatGPT-3.5、Bing和Bard）在生成臨床查詢的有效性，並與人類專家生成的查詢進行比較。研究結果顯示，Bing的準確率最高，達70.79%，而ChatGPT-3.5雖然相關結果較低，但在質量評分上表現最佳。研究指出，這些AI模型在提升臨床查詢和資訊檢索效率上有潛力，但仍需改進和人類監督，以確保結果的準確性和質量。 PubMed DOI

Evaluating Artificial Intelligence-Driven Responses to Acute Liver Failure Queries: A Comparative Analysis Across Accuracy, Clarity, and Relevance.
評估人工智慧驅動的急性肝衰竭問題回應：準確性、清晰度和相關性的比較分析。 Am J Gastroenterol 2024-12-17

最近的研究顯示，透過大型語言模型（LLMs）在急性肝衰竭（ALF）問題上的表現，特別是使用增強檢索生成（RAG）技術的ChatGPT 4，顯示出顯著的優勢。研究中評估了五個模型，結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳，得分分別為4.70、4.89和4.78。相比之下，其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力，但也指出其需持續進化以符合實際需求。 PubMed DOI

Comparison of the experience and perception of artificial intelligence among practicing doctors and medical students.
在職醫師與醫學生對人工智慧的經驗與認知比較。 Wiad Lek 2024-12-23

這項研究分析了執業醫生與五年級醫學生對人工智慧（AI）的看法與經驗。調查顯示，26.67%的醫生和13.33%的學生未使用過AI。學生對AI的有效性評價普遍高於醫生，尤其在教育和工作經驗上。雖然兩組人員都使用AI來檢索資訊，但學生對AI在教育和實踐中的應用持較開放態度。儘管認同AI的優勢，雙方對其準確性和可靠性仍有疑慮。研究建議需進一步探討AI在醫學課程中的整合及相關倫理問題。 PubMed DOI

OpenEvidence: Enhancing Medical Student Clinical Rotations With AI but With Limitations.
OpenEvidence：利用 AI 增強醫學生臨床輪轉，但存在限制。 Cureus 2025-02-03

人工智慧在醫療領域的應用，像是OpenEvidence這種工具，提供即時醫學文獻存取，對醫學教育和臨床實踐有很大幫助。它能協助醫學生在實習時快速搜尋臨床指導和治療方法，簡化決策過程。不過，OpenEvidence在精確搜尋特定文章和作者時會遇到困難，且內容策展不夠透明。與ChatGPT和UpToDate相比，它在某些進階功能上有所不足。這篇社論指出，改善透明度和擴大證據整合將提升其在基於證據的醫學教育中的有效性。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

原始文章

站上相關主題文章列表