Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

Assessing GPT-4's Performance in Delivering Medical Advice: Comparative Analysis With Human Experts.
評估 GPT-4 在提供醫療建議方面的表現：與人類專家的比較分析。 JMIR Med Educ 2024-07-11

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現，GPT-4和人類專家在醫學準確性上差不多，人類專家在高準確性回答上表現較好，但也有更多低準確性回答。GPT-4回答較長，用詞較少多樣，可能有助於一般人理解。然而，人類專家在藥物資訊和初步診斷等特定問題上表現更好，顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力，但需改進整合臨床推理，確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

Doctor AI? A pilot study examining responses of artificial intelligence to common questions asked by geriatric patients.
Doctor AI？一項針對老年患者常見問題的人工智慧反應的初步研究。 Front Artif Intell 2024-08-09

人工智慧技術在病患照護上有很大潛力，尤其在診斷、精神疾病治療和認知測試解讀等方面。雖然進展顯著，但仍需進一步研究其在醫療中的優缺點。一項研究比較了人工智慧（Chat-GPT 3.5）和臨床醫師對癡呆症相關問題的回答，結果顯示人工智慧在易懂性和深度上表現更佳，平均評分為4.6/5，而臨床醫師則為4.3、4.2和3.9。儘管人工智慧的回答質量高，但仍需注意錯誤資訊和數據安全等問題。總之，人工智慧在醫療溝通上有潛力，但需謹慎對待其限制。 PubMed DOI

Evaluating cognitive performance: Traditional methods vs. ChatGPT.
評估認知表現：傳統方法 vs. ChatGPT。 Digit Health 2024-08-19

這項研究探討了ChatGPT（GPT-3.5和GPT-4）在評估認知表現的有效性，對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異，但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分，顯示其在認知評估中有進一步提升的潛力。整體而言，ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

"Doctor ChatGPT, Can You Help Me?" The Patient's Perspective: Cross-Sectional Study.
「醫生 ChatGPT，您能幫我嗎？」病人的視角：橫斷面研究。 J Med Internet Res 2024-10-01

這項研究比較了AI語言模型ChatGPT與專家醫生在健康建議的有效性和安全性。研究涵蓋100個健康問題，結果顯示： 1. **同理心與實用性**：患者認為ChatGPT在同理心（4.18對2.7）和實用性（4.04對2.98）上表現更佳。 2. **正確性**：ChatGPT的正確性得分（4.51對3.55）也優於專家。 3. **潛在危害**：專家指出AI的有害建議比例較低，但患者對這些風險的認知不足。 4. **性別差異**：女性對同理心的評價高於男性。總體而言，ChatGPT在協助患者解決健康問題上表現出色，但患者需謹慎識別潛在風險。 PubMed DOI

Evaluating AI Competence in Specialized Medicine: Comparative Analysis of ChatGPT and Neurologists in a Neurology Specialist Examination in Spain.
評估人工智慧在專科醫學中的能力：ChatGPT 與神經科醫生在西班牙神經科專科考試中的比較分析。 JMIR Med Educ 2024-12-02

這項研究評估了ChatGPT在西班牙神經科專科考試中的表現，特別是版本3.5和4，並與人類醫生進行比較。考試包含80道多選題，結果顯示人類醫生中位數得分為5.91，32人未通過。ChatGPT-3.5得分3.94，正確率54.5%，排名第116；而ChatGPT-4得分7.57，正確率81.8%，排名第17，超越許多人類專家。研究顯示，ChatGPT-4在醫學知識評估中有顯著進步，顯示其在專業醫學教育中的潛在價值。 PubMed DOI

Dementia Care Research and Psychosocial Factors.
癡呆症照護研究與心理社會因素。 Alzheimers Dement 2025-01-09

這項研究評估了ChatGPT-4在解答阿茲海默症相關問題的有效性，指出AI在臨床初步資訊收集中的應用逐漸增加，但也對其準確性和可靠性表示擔憂。研究使用DISCERN和AGREE II評分框架，由兩位神經科醫生盲評ChatGPT-4的回答，結果顯示其準確性中等，AGREE平均分為2.27/7，DISCERN為2.14/5。雖然ChatGPT-4在神經學資訊上有潛力，但醫療專業人員應謹慎使用，並強調公眾需了解AI的限制與適當應用。 PubMed DOI

AI-generated and doctors' answers to health-related questions.
AI生成的醫療相關問題的醫生回答。 Tidsskr Nor Laegeforen 2025-02-11

一項2023年的研究探討了GPT-4在回答挪威語健康問題的表現，並與醫生的回答進行比較。研究使用了192個問題，並由344位醫療專業人員評估GPT-4的答案。結果顯示，GPT-4在同理心、資訊品質和幫助程度上都顯著優於醫生的回答，所有類別的p值均小於0.001。這顯示人工智慧可能成為醫療專業人員撰寫健康詢問回應的有力工具。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Primary Care Providers Acceptance of Generative AI Responses to Patient Portal Messages.
初級醫療提供者對生成式 AI 回應患者門戶訊息的接受度。 Appl Clin Inform 2025-03-25

這項研究探討GPT生成的回應在病人入口網站的有效性，並與真實醫生的回應進行比較。研究發現，GPT的回應在同理心和可讀性上得分較高，但在相關性和準確性上差異不顯著。雖然可讀性較佳，但差異不大，讓人質疑其臨床意義。總體來說，研究建議GPT的訊息在某些方面可與醫療提供者相當，但仍需進一步研究其在醫療流程中的應用及病人對AI溝通的態度與倫理考量。 PubMed DOI

原始文章

站上相關主題文章列表