Assessing the Accuracy and Reliability of AI-Generated Medical Responses: An Evaluation of the Chat-GPT Model.
評估 AI 生成的醫學回應的準確性和可靠性：對 Chat-GPT 模型的評估。 Res Sq 2023-10-20

醫師評估了ChatGPT生成的醫學問題答案的準確性和完整性，發現準確性表現不錯，但完整性稍有不足。模型在各種難度問題中的表現有所差異，但整體表現仍然不錯。重新評估後，得分較低的問題有改善。雖然ChatGPT提供的資訊大多正確，但仍需進一步研究和模型開發，以確保在醫學領域的驗證。 PubMed DOI

ChatGPT failed Taiwan's Family Medicine Board Exam.
ChatGPT 未通過台灣家庭醫學專科醫師考試。 J Chin Med Assoc 2023-08-11

ChatGPT 是一個擅長回答各種問題的人工智慧語言模型，研究者用台灣家庭醫學專科醫師考試問題來測試它的表現。在125個問題中，ChatGPT 回答對了52個，準確率為41.6%。它在否定短語、互斥和案例情境問題上表現較好。但因考試難度高且中文資源有限，對專科考試仍有提升空間。ChatGPT 仍可用於學習和考試準備，未來研究可探討提升其在專業考試和其他領域的準確性。 PubMed DOI

ChatGPT's Skills in Statistical Analysis Using the Example of Allergology: Do We Have Reason for Concern?
ChatGPT 在統計分析方面的能力，以過敏學為例：我們應該擔心嗎？ Healthcare (Basel) 2023-10-03

研究評估ChatGPT在統計分析中的準確性，特別是在過敏學領域。結果顯示ChatGPT未完整回答一半問題，有時提供不同回應，可能導致誤解。建議提問更精確以獲得AI更準確回答。 PubMed DOI

Testing ChatGPT ability to answer laypeople questions about cardiac arrest and cardiopulmonary resuscitation.
當然可以！請問您有關心臟驟停和心肺復甦的問題嗎？我會盡力回答您的問題。 Resuscitation 2024-01-16

研究發現ChatGPT回答心臟骤停問題得到好評，但專業人士認為整體價值和全面性稍嫌不足。在心肺复苏問題上表現較差，也較難懂。總結來說，ChatGPT提供有用的心臟骤停資訊，但在心肺复苏方面還有進步空間。建議未來監控ChatGPT等大型語言模型在醫療內容生成上的表現。 PubMed DOI

Performance of ChatGPT on the Chinese Postgraduate Examination for Clinical Medicine: Survey Study.
ChatGPT 在中國臨床醫學研究生考試中的表現：調查研究。 JMIR Med Educ 2024-02-27

研究發現ChatGPT在中文醫學考試中及格，但回答開放式問題準確度較低。儘管有多元見解，仍有改進空間。未來研究應探討ChatGPT在醫療領域的語言表現。 PubMed DOI

Performance of ChatGPT on Chinese national medical licensing examinations: a five-year examination evaluation study for physicians, pharmacists and nurses.
ChatGPT 在中國國家醫學資格考試中的表現：醫師、藥師和護士五年考試評估研究。 BMC Med Educ 2024-02-17

研究發現ChatGPT在2017至2021年的中國國家醫學考試中表現不佳，準確度未達0.6閾值。儘管在不同科目中表現差異不大，但根據問題類型有所不同。ChatGPT在臨床流行病學、人類寄生蟲學和皮膚病學等領域表現優秀，同時在分子、健康管理、預防、診斷和篩檢等主題上也表現出色。研究指出大型語言模型在醫學教育中有潛力，但也強調提高表現需要高質量醫學數據的重要性。 PubMed DOI

Assessing question characteristic influences on ChatGPT's performance and response-explanation consistency: Insights from Taiwan's Nursing Licensing Exam.
評估問題特徵對 ChatGPT 表現和回答解釋一致性的影響：以台灣護理師執照考試為例。 Int J Nurs Stud 2024-02-24

研究發現，ChatGPT在台灣護理師執照考試準備中有80.75%的準確率，但在不同科目表現不盡相同。它在臨床案例和複雜問題上有困難，答案和解釋也不一致。這突顯了ChatGPT在護理教育中的潛力和限制，對AI教育工具的發展有所助益。 PubMed DOI

ChatGPT's Response Consistency: A Study on Repeated Queries of Medical Examination Questions.
ChatGPT 的回應一致性：對醫學檢查問題重複查詢的研究。 Eur J Investig Health Psychol Educ 2024-03-29

研究比較了ChatGPT 3.5和ChatGPT 4回答醫學考試問題的表現，結果發現ChatGPT 4在準確度（85.7% vs. 57.7%）和一致性（77.8% vs. 44.9%）方面有明顯進步。這顯示ChatGPT 4在醫學教育和臨床決策上更可靠。但人類醫療服務仍然不可或缺，使用AI時應持續評估。 PubMed DOI

Evaluating ChatGPT's effectiveness and tendencies in Japanese internal medicine.
評估 ChatGPT 在日本內科醫學中的效果和傾向。 J Eval Clin Pract 2024-05-20

研究指出，ChatGPT回答日本內科專家問題的整體準確率為59.05%，對非圖像問題的準確率提升至65.76%，但仍不及人類專家。ChatGPT在持續正確回答的問題（CCA）和持續錯誤回答的問題（CIA）之間有明顯的準確性差異。因此，ChatGPT應被視為醫學判斷的輔助，而非替代。未來應進一步研究，以更好整合ChatGPT等人工智慧工具到專業醫學實務中。 PubMed DOI

Evaluating the scientific reliability of ChatGPT as a source of information on asthma.
評估 ChatGPT 作為哮喘資訊來源的科學可靠性。 J Allergy Clin Immunol Glob 2024-09-27

這項研究評估了ChatGPT在提供哮喘資訊的可靠性，考量到人工智慧在醫療領域的應用。研究分析了ChatGPT對26個哮喘相關問題的回答，醫療專業人員對其準確性進行評分，結果顯示約81%的回答得分4分以上，整體中位數得分為4，顯示出高準確性。不過，部分回答仍有輕微不準確，且缺乏深度，無法引用來源或即時更新，因此不應取代專業醫療建議。未來研究可探討其對不同使用者的有效性。 PubMed DOI

原始文章

站上相關主題文章列表