Performance of artificial intelligence chatbots in sleep medicine certification board exams: ChatGPT versus Google Bard.
人工智慧聊天機器人在睡眠醫學認證考試中的表現：ChatGPT 對 Google Bard 的比較。 Eur Arch Otorhinolaryngol 2024-04-02

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示，GPT-4在十個考試類別中有五個類別的通過率達到80%以上，比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性，以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

ChatGPT's Performance in Cardiac Arrest and Bradycardia Simulations Using the American Heart Association's Advanced Cardiovascular Life Support Guidelines: Exploratory Study.
ChatGPT在使用美國心臟協會高級心血管生命支持指南進行心跳骤停和心率過慢模擬中的表現：探索性研究。 J Med Internet Res 2024-04-22

ChatGPT是一個先進的語言模型，對於醫學考試和臨床決策支持有潛力。研究發現在心臟驟停方面的準確率為85%，心動過緩為30%。然而，在模擬中心臟驟停的準確率為69%，心動過緩為42%。研究指出ChatGPT存在不一致、遺漏、重複和藥物錯誤問題，需要更可靠的指導以避免醫療錯誤。 PubMed DOI

Comparison of artificial intelligence large language model chatbots in answering frequently asked questions in anaesthesia.
人工智慧大型語言模型聊天機器人在麻醉常見問題回答中的比較。 BJA Open 2024-05-20

根據專家評估其回答，AI聊天機器人如ChatGPT4和Bard在回答麻醉常見問題時表現優於Bing Chat。儘管這些聊天機器人在溝通品質方面表現出色，但在醫學內容品質方面則有所不足。在這個情況下，ChatGPT4和Bard被發現在這方面與Bing Chat相比是可比且優越的。 PubMed DOI

A comparative analysis of ChatGPT, ChatGPT-4 and Google Bard performances at the Advanced Burn Life Support Exam.
ChatGPT、ChatGPT-4和Google Bard在高級燒傷救命支援考試表現的比較分析。 J Burn Care Res 2024-06-04

人工智慧和大型語言模型（LLMs）在醫療保健領域有應用，像是進階燒傷急救（ABLS）計畫。研究比較了三種LLMs（ChatGPT-3.5、ChatGPT-4、Google Bard）在ABLS考試中的表現，結果顯示ChatGPT-4表現最好，得分90%，比Bard好很多。LLMs在急診護理中有潛力，但應該輔助人類判斷。 PubMed DOI

The scientific knowledge of three large language models in cardiology: multiple-choice questions examination-based performance.
心臟病學中三個大型語言模型的科學知識：基於多重選擇問題考試表現。 Ann Med Surg (Lond) 2024-06-07

研究比較了AI聊天機器人在心臟病學領域的表現，發現ChatGPT 4.0的準確率最高，Bing次之，Bard最低。ChatGPT在各個心臟病學主題上表現都很好。研究指出ChatGPT 4.0可作為心臟病學教育的重要資源，但也提醒要持續評估和改進Bard等機器人，確保醫學知識的準確性。 PubMed DOI

Assessing the readability, reliability, and quality of artificial intelligence chatbot responses to the 100 most searched queries about cardiopulmonary resuscitation: An observational study.
評估人工智慧聊天機器人對心肺復甦術最常搜尋的100個問題的可讀性、可靠性和質量：一項觀察性研究。 Medicine (Baltimore) 2024-09-11

這項研究評估了四款人工智慧聊天機器人對心肺復甦術（CPR）的回應質量，包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題，獲得400個回應，並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示，所有機器人的回應可讀性均超過六年級，其中Bard最佳，ChatGPT-3.5最難閱讀。研究指出，提升病人教育材料的質量和可讀性，可能有助於提高理解能力及病人存活率。 PubMed DOI

Evaluating the accuracy and reliability of AI chatbots in disseminating the content of current resuscitation guidelines: a comparative analysis between the ERC 2021 guidelines and both ChatGPTs 3.5 and 4.
評估 AI 聊天機器人在傳播當前復甦指導方針內容的準確性和可靠性：ERC 2021 指導方針與 ChatGPT 3.5 和 4 的比較分析。 Scand J Trauma Resusc Emerg Med 2024-09-26

這項研究評估了ChatGPT 3.5和4在提供2021年歐洲復甦委員會（ERC）指導方針的準確性。結果顯示，兩個版本都未能涵蓋許多關鍵訊息（ChatGPT-3.5為123條，ChatGPT-4為132條）。雖然大部分生成的內容與指導方針一致（ChatGPT-3.5為77%，ChatGPT-4為84%），但許多回應仍顯得膚淺或不正確。研究強調，醫療專業人員不應僅依賴AI聊天機器人，應參考原始資料以獲得更全面的理解，因為AI的訓練數據可能缺乏最新的資訊。 PubMed DOI

Accuracy of Prospective Assessments of 4 Large Language Model Chatbot Responses to Patient Questions About Emergency Care: Experimental Comparative Study.
大型語言模型聊天機器人對患者急救問題的前瞻性評估準確性：實驗比較研究。 J Med Internet Res 2024-11-04

最近調查顯示，48%的消費者使用生成式AI查詢健康資訊，但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現，雖然它們在清晰度和可理解性上表現良好，但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間，且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範，並強調諮詢醫療專業人員的重要性，以避免潛在風險。 PubMed DOI

Embracing Large Language Models for Adult Life Support Learning.
擁抱大型語言模型以促進成人生命支持學習。 Cureus 2024-12-19

這項研究評估了兩個大型語言模型（LLMs），ChatGPT 和 Bard，在中級生命支持相關的多選題（MCQs）上的表現。結果顯示，Bard 的整體得分稍高於 ChatGPT，但差異不顯著。兩者在子問題的表現也無明顯差異。雖然有些回答不正確，但它們的解釋仍提供了有用資訊。評分者對解釋的評價一致性高，顯示回答質量穩定。總體來看，這兩個模型表現相似，但在醫學教育的準確性上仍需改進。 PubMed DOI

Assessing the accuracy and quality of artificial intelligence (AI) chatbot-generated responses in making patient-specific drug-therapy and healthcare-related decisions.
評估人工智慧 (AI) 聊天機器人生成的回應在制定患者特定藥物療法和醫療相關決策中的準確性和質量。 BMC Med Inform Decis Mak 2024-12-24

這項研究評估了ChatGPT在醫療查詢中的可靠性，透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示，ChatGPT在「什麼」問題上表現較好，但在「為什麼」和「如何」問題上則不理想，出現計算錯誤和不正確的單位等問題，甚至有些引用文獻是虛構的。研究結論認為，ChatGPT目前不適合用於醫療學習者或專業人士，因為其回應不一致且參考資料不可靠，可能影響臨床決策。 PubMed DOI

原始文章

站上相關主題文章列表