ChatGPT (GPT-4V) Performance on the Healthcare Information Technologist Examination in Japan.
ChatGPT (GPT-4V) 在日本醫療資訊技術人員考試中的表現。 Cureus 2025-02-03

本研究評估了ChatGPT（GPT-4V）在日本醫療資訊技術人員（HCIT）認證考試中的表現。經過三年，分析了476道考題，結果顯示ChatGPT的正確回答率達84%，成功通過考試。簡單選擇題的表現優於多選題，且帶圖片的問題和需要計算的題目正確率較低。總體而言，ChatGPT具備HCIT認證所需的基本知識和技能，顯示其在醫療資訊領域的潛力。 PubMed DOI

ChatGPT for Univariate Statistics: Validation of AI-Assisted Data Analysis in Healthcare Research.
單變量統計的 ChatGPT：AI 輔助數據分析在醫療研究中的驗證。 J Med Internet Res 2025-02-07

這項研究評估了ChatGPT在Python程式碼解釋方面的有效性，特別作為數據分析工具。研究使用全國住院病人樣本的子集，重點在數據管理、描述性統計和推論統計。主要發現包括： 1. **數據處理和分類**：ChatGPT能準確重新分類和呈現數據。 2. **描述性統計**：提供正確的均值、標準差等計算。 3. **推論統計**：準確率隨提示具體性提升，從32.5%到92.5%不等。結論認為，ChatGPT對具備基本統計知識的研究人員是個有價值的工具，但需謹慎構建提示並進行監督，以確保結果準確。 PubMed DOI

Chat-GPT in triage: Still far from surpassing human expertise - An observational study.
Chat-GPT 在分診中的應用：仍然遠未超越人類專業知識 - 一項觀察性研究。 Am J Emerg Med 2025-03-22

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果，並與人類分診人員進行比較。分析了2,658名病人的數據，結果顯示AI與人類的分診協議程度較低（kappa = 0.125）。在人類分診預測30天死亡率和生命救援需求方面，表現明顯優於AI（ROC分別為0.88對0.70及0.98對0.87）。這顯示雖然AI有潛力，但在急診分診中仍不如人類可靠，特別是對高風險病人的評估。 PubMed DOI

ChatGPT performance on 120 interdisciplinary allergology questions - systematic evaluation with clinical error impact assessment for critical erroneous AI-guided chatbot-advice.
ChatGPT 在 120 個跨學科過敏學問題上的表現 - 針對關鍵錯誤的 AI 指導聊天機器人建議進行系統評估與臨床錯誤影響評估。 J Allergy Clin Immunol Pract 2025-03-29

這項研究評估了ChatGPT在回答過敏學問題的表現，顯示它對於等待專科門診的病患來說是一個方便的資源。研究針對120個問題進行評估，結果顯示ChatGPT的整體準確性不錯（平均4.1分），但在兒科問題的完整性和人性化程度上較低。特別是與兒童食物過敏相關的錯誤，可能會造成生命危險。這強調了ChatGPT在提供過敏學建議上的局限性，並建議諮詢專業醫師的重要性。調整AI工具以適應特定醫療情境，可能會提升其臨床有效性。 PubMed DOI

Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis.
ChatGPT 4.0 在英國醫學執照考試（UKMLA）中的能力評估：一項嚴謹的類別分析 Sci Rep 2025-04-15

這項研究發現，ChatGPT-4在有選擇題選項時，答對率超過86%，但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊，但不是真的懂臨床情境。未來如果和專業醫療人員搭配，有機會幫助臨床工作，但還需要更多測試來確保安全和有效。 PubMed DOI

Assessing the Quality and Reliability of ChatGPT's Responses to Radiotherapy-Related Patient Queries: Comparative Study With GPT-3.5 and GPT-4.
ChatGPT 回應放射治療相關病患問題的品質與可靠性評估：與 GPT-3.5 及 GPT-4 的比較研究 JMIR Cancer 2025-04-16

這項研究發現，GPT-4在回答放射治療常見問題時，比GPT-3.5表現更好，但兩者的回答對一般人來說還是太難懂，也有可能出現錯誤資訊。建議在正式用於病人前，還需要加強內容的易讀性和正確性。 PubMed DOI

Can ChatGPT-4o Really Pass Medical Science Exams? A Pragmatic Analysis Using Novel Questions.
ChatGPT-4o 真的能通過醫學科學考試嗎？以新穎試題進行的實用性分析 Med Sci Educ 2025-05-12

ChatGPT-4o 在英美醫師執照考試表現亮眼，即使遇到全新題目也能高分，證明不是只靠背題庫。不過，遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題，無法完全防堵 AI 作弊，還是得有嚴格監考和安全措施，才能確保考試公平。 PubMed DOI

Comparison of ChatGPT and Internet Research for Clinical Research and Decision-Making in Occupational Medicine: Randomized Controlled Trial.
ChatGPT 與網路搜尋在職業醫學臨床研究與決策中的比較：隨機對照試驗 JMIR Form Res 2025-05-20

這項德國研究發現，醫師和醫學生用ChatGPT查職業性肺病資料時，在找有害物質等研究任務上表現較好，也覺得自己專業知識有提升。但在臨床決策（像是否通報職業病）時，自己查資料的答對率反而更高。總結：ChatGPT適合輔助醫學研究，但臨床決策還是不能只靠它。 PubMed DOI

ChatGPT and Occupational Therapy: A Study of Generated Program Feasibility.
ChatGPT 與職能治療：生成方案可行性之研究 Cureus 2025-06-10

這項研究發現，GPT在為有心理症狀的中風患者設計職能治療方案時，內容太籠統、缺乏細節和專業性，分數偏低。雖然在部分方案設計上有輔助潛力，但目前仍無法取代專業治療師，主要受限於訓練資料不足。 PubMed DOI

Evaluation of a large language model (ChatGPT) versus human researchers in assessing risk-of-bias and community engagement levels: a systematic review use-case analysis.
大型語言模型（ChatGPT）與人類研究人員在評估偏倚風險與社區參與程度之比較：系統性回顧案例分析 Eur J Public Health 2025-06-10

研究用兩個自訂GPT模型和人工審查者比較，評估系統性回顧的偏誤風險和參與程度。結果顯示，GPT模型的分類和人工類似，但在細節分布上有些不同，統計上沒顯著差異。雖然GPT有潛力，但還需要更多研究才能正式應用在科學實務上。 PubMed DOI

原始文章

站上相關主題文章列表