Investigating the impact of innovative AI chatbot on post-pandemic medical education and clinical assistance: a comprehensive analysis.
探討創新人工智慧聊天機器人對後疫情醫學教育和臨床協助的影響：全面分析。 ANZ J Surg 2024-02-27

研究發現三款大型語言模型在醫療決策上的表現，ChatGPT最優，其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議，對初級醫生學習和臨床決策有潛力，但還需更多整合到教育中。 PubMed DOI

Exploring the Role of ChatGPT-4, BingAI, and Gemini as Virtual Consultants to Educate Families about Retinopathy of Prematurity.
探討 ChatGPT-4、BingAI 和 Gemini 作為虛擬顧問，在教育家庭有關早產兒視網膜病變的角色。 Children (Basel) 2024-06-27

對於早產兒視網膜病變（ROP）相關問題，經評估後發現ChatGPT-4表現最好，回答最準確可靠；BingAI和Gemini在不同方面也有優勢。ChatGPT-4雖然用詞較複雜，但提供詳盡可信賴的回答。總括而言，這些模型通常提供正確資訊。 PubMed DOI

A New Era in Medical Information: ChatGPT Outperforms Medical Information Provided by Online Information Sheets About Congenital Malformations.
醫療資訊的新時代：ChatGPT 在提供有關先天性畸形的線上資訊表中的醫療資訊表現優於傳統資料。 J Pediatr Surg 2024-09-24

這項研究評估了ChatGPT在提供先天性異常資訊的有效性，針對四種病症進行分析。研究人員提出28個常見問題，並將ChatGPT的回答與三家小兒醫學中心的信息進行比較。結果顯示，ChatGPT在準確性、全面性和簡潔性上表現優於線上資料，但其回答的閱讀時間較長且較為複雜。總體來看，ChatGPT在提供詳細資訊方面表現出色，建議進一步探討其對父母的實際應用。 PubMed DOI

Using ChatGPT to Provide Patient-Specific Answers to Parental Questions in the PICU.
在PICU中使用ChatGPT提供針對患者的家長問題的具體答案。 Pediatrics 2024-10-07

這項研究評估了ChatGPT在小兒重症監護病房（PICU）中，對父母問題的回應品質。研究針對三位不同病況的病人，檢視八個常見問題的回答。六位醫師根據準確性、完整性、同理心和可理解性進行評估。結果顯示，ChatGPT的回應普遍高品質，準確性和同理心得分均為5.0，且97%的問題得到完整回答。研究顯示，ChatGPT能有效融入病人特異性資訊，顯示其在醫療溝通中的潛力。 PubMed DOI

Assessing the Responses of Large Language Models (ChatGPT-4, Claude 3, Gemini, and Microsoft Copilot) to Frequently Asked Questions in Retinopathy of Prematurity: A Study on Readability and Appropriateness.
評估大型語言模型（ChatGPT-4、Claude 3、Gemini 和 Microsoft Copilot）對早產兒視網膜病常見問題的回應：可讀性和適當性的研究。 J Pediatr Ophthalmol Strabismus 2024-10-28

這項研究評估了四個大型語言模型（LLMs）對父母詢問早產兒視網膜病（ROP）的回應。整理了60個常見問題，三位專家評估其回應的適當性和完整性。研究發現，ChatGPT-4的適當性得分最高（100%），但文本結構較複雜，需大學程度理解。相對而言，Gemini被認為最易讀，而Microsoft Copilot在可讀性指標上表現優異。總體來看，ChatGPT-4提供最準確的回應，但可能讓某些父母難以理解，Gemini和Microsoft Copilot則更易於理解。 PubMed DOI

Accuracy of Prospective Assessments of 4 Large Language Model Chatbot Responses to Patient Questions About Emergency Care: Experimental Comparative Study.
大型語言模型聊天機器人對患者急救問題的前瞻性評估準確性：實驗比較研究。 J Med Internet Res 2024-11-04

最近調查顯示，48%的消費者使用生成式AI查詢健康資訊，但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現，雖然它們在清晰度和可理解性上表現良好，但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間，且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範，並強調諮詢醫療專業人員的重要性，以避免潛在風險。 PubMed DOI

Use of Online Large Language Model Chatbots in Cornea Clinics.
角膜診所中使用線上大型語言模型聊天機器人。 Cornea 2024-12-03

這項研究評估了幾種大型語言模型（LLM）聊天機器人的表現，包括ChatGPT、Writesonic、Google Bard和Bing Chat，針對角膜相關情境的回應。三位專家使用標準化評分來評估準確性、理解力等指標。結果顯示，ChatGPT在準確性和全面性上表現最佳，得分3.35（滿分4分），而Google Bard在可讀性方面表現突出。所有回應均未對病人造成風險，顯示信息安全可靠。研究強調LLM在眼科的潛力，但仍需醫療專業人員的監督以確保病人安全。 PubMed DOI

Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Assessing large language models as assistive tools in medical consultations for Kawasaki disease.
將「Assessing large language models as assistive tools in medical consultations for Kawasaki disease.」翻譯為：「評估大型語言模型作為川崎病醫療諮詢輔助工具的可行性」 Front Artif Intell 2025-04-15

這項研究比較三款AI語言模型在回答川崎病問題時的表現。結果顯示，Claude 3.5 Sonnet 答案最準確，特別適合專業醫師提問；Gemini 1.5 Pro 則在家長提問時最容易理解。不過，所有模型都有可能出現錯誤資訊。建議家長查詢時優先選用 Claude 3.5 Sonnet 並用適合家長的提問方式。未來還需持續改進AI模型，確保醫療資訊正確可靠。 PubMed DOI

原始文章

站上相關主題文章列表