A mixed-methods study comparing human-led and ChatGPT-driven qualitative analysis in medical education research.
比較人類主導與 ChatGPT 驅動的醫學教育研究質性分析的混合方法研究。 Nagoya J Med Sci 2025-01-09

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時，研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示，ChatGPT在大多數領域表現良好，但在可轉移性和分析深度上有所不同。六個關鍵主題包括：與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據，但深入分析仍需人類參與以增強深度。 PubMed DOI

Assessing readability of explanations and reliability of answers by GPT-3.5 and GPT-4 in non-traumatic spinal cord injury education.
評估 GPT-3.5 和 GPT-4 在非創傷性脊髓損傷教育中解釋的可讀性和答案的可靠性。 Med Teach 2025-01-20

這項研究評估了一本教科書與GPT-4在非創傷性脊髓損傷（NTSCI）方面的可讀性與可靠性，特別針對ABPMR認證。主要發現包括： 1. 教科書可讀性分數為14.5，GPT-4為17.3，顯示GPT-4的解釋較複雜（p < 0.001）。 2. GPT-4的解釋中有86%屬於「非常困難」，教科書則為58%（p = 0.006）。 3. GPT-4能簡化九個複雜解釋，保持字數不變，顯示其適應性。 4. GPT-4的準確率為96%，顯著優於GPT-3.5的84%（p = 0.046）。總體而言，研究顯示GPT-4在醫學教育中具潛力，能提供準確且易懂的解釋。 PubMed DOI

Assessing the performance of ChatGPT in medical ethical decision-making: a comparative study with USMLE-based scenarios.
評估 ChatGPT 在醫學倫理決策中的表現：與 USMLE 基於情境的比較研究。 J Med Ethics 2025-01-25

人工智慧（AI）在醫療領域的應用帶來了機會與挑戰，尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現，使用了273道來自不同題庫的問題。結果顯示，GPT-3.5的正確回答率普遍低於醫學生的平均水平，而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力，但人類的推理能力仍然優於AI，未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

ChatGPT for Univariate Statistics: Validation of AI-Assisted Data Analysis in Healthcare Research.
單變量統計的 ChatGPT：AI 輔助數據分析在醫療研究中的驗證。 J Med Internet Res 2025-02-07

這項研究評估了ChatGPT在Python程式碼解釋方面的有效性，特別作為數據分析工具。研究使用全國住院病人樣本的子集，重點在數據管理、描述性統計和推論統計。主要發現包括： 1. **數據處理和分類**：ChatGPT能準確重新分類和呈現數據。 2. **描述性統計**：提供正確的均值、標準差等計算。 3. **推論統計**：準確率隨提示具體性提升，從32.5%到92.5%不等。結論認為，ChatGPT對具備基本統計知識的研究人員是個有價值的工具，但需謹慎構建提示並進行監督，以確保結果準確。 PubMed DOI

Assessing the Usability of ChatGPT Responses Compared to Other Online Information in Hand Surgery.
評估 ChatGPT 回應的可用性與其他線上資訊在手外科中的比較。 Hand (N Y) 2025-04-12

這項研究評估了手部手術相關的線上醫療資訊，並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。主要發現包括： 1. **可讀性**：Google的回應較易讀，平均在八年級水平，而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**：ChatGPT-4的可靠性與3.5相似，但低共識主題的可讀性較低，準確性差異不大。 3. **覆蓋範圍**：ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同，但在解剖學和病理生理學上相似。總結來說，雖然ChatGPT能提供可靠的醫療資訊，但可讀性較差，醫療提供者需注意其局限性。 PubMed DOI

Assessing ChatGPT 4.0's Capabilities in the United Kingdom Medical Licensing Examination (UKMLA): A Robust Categorical Analysis.
ChatGPT 4.0 在英國醫學執照考試（UKMLA）中的能力評估：一項嚴謹的類別分析 Sci Rep 2025-04-15

這項研究發現，ChatGPT-4在有選擇題選項時，答對率超過86%，但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊，但不是真的懂臨床情境。未來如果和專業醫療人員搭配，有機會幫助臨床工作，但還需要更多測試來確保安全和有效。 PubMed DOI

Assessing the Quality and Reliability of ChatGPT's Responses to Radiotherapy-Related Patient Queries: Comparative Study With GPT-3.5 and GPT-4.
ChatGPT 回應放射治療相關病患問題的品質與可靠性評估：與 GPT-3.5 及 GPT-4 的比較研究 JMIR Cancer 2025-04-16

這項研究發現，GPT-4在回答放射治療常見問題時，比GPT-3.5表現更好，但兩者的回答對一般人來說還是太難懂，也有可能出現錯誤資訊。建議在正式用於病人前，還需要加強內容的易讀性和正確性。 PubMed DOI

Identification of Online Health Information Using Large Pretrained Language Models: Mixed Methods Study.
利用大型預訓練語言模型識別線上健康資訊：混合方法研究 J Med Internet Res 2025-05-14

這項研究比較了四款主流AI（ChatGPT-3.5、ChatGPT-4、Ernie Bot、iFLYTEK Spark）辨識網路健康資訊真偽的能力。結果顯示，ChatGPT-4 準確率最高，Ernie Bot 和 iFLYTEK Spark 表現也不錯，ChatGPT-3.5 稍微落後。雖然整體表現佳，但在專業或複雜情境下還有進步空間。 PubMed DOI

Assessing the quality of Japanese online breast cancer treatment information using large language models: a comparison of ChatGPT, Claude, and expert evaluations.
使用大型語言模型評估日本線上乳癌治療資訊的品質：ChatGPT、Claude 與專家評估之比較 Breast Cancer 2025-05-21

這項研究發現，像ChatGPT這類大型語言模型在評估日本網路乳癌治療資訊品質時，表現和專家相當接近，尤其在化療相關內容上分數最高。不過，LLMs評分普遍偏高，且Google搜尋排名和資訊品質沒什麼關聯。雖然LLMs能有效協助評估，但全面把關還是需要專業人士參與。 PubMed DOI

Comparative evaluation of the accuracy and reliability of ChatGPT versions in providing information on <i>Helicobacter pylori</i> infection.
ChatGPT 各版本在提供有關 Helicobacter pylori 感染資訊之準確性與可靠性的比較評估 Front Public Health 2025-05-30

這項研究比較了三種ChatGPT版本在回答幽門螺旋桿菌相關問題的表現。結果顯示，ChatGPT-4o答得最準確但穩定性較差，3.5版則最穩定但偶有錯誤。整體來說，AI聊天機器人能有效協助病患衛教，也能幫醫師提供可靠醫療資訊。 PubMed DOI

原始文章

站上相關主題文章列表