原始文章

這項研究評估了幾款AI聊天機器人(如GPT-3.5、GPT-4、Bard和Bing)在提供基本生命支持(BLS)指導的表現。結果顯示,GPT-4在成人情境中準確率最高(85%),而Bard則中等(60%)。不過,所有機器人在處理兒童和嬰兒的緊急情況時表現不佳,得分都低於44%。雖然GPT-4的可靠性較高,但這些聊天機器人仍未能始終遵循BLS指導,因此在緊急情況下仍需人類監督。 PubMed DOI


站上相關主題文章列表

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示,GPT-4在十個考試類別中有五個類別的通過率達到80%以上,比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性,以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

ChatGPT是一個先進的語言模型,對於醫學考試和臨床決策支持有潛力。研究發現在心臟驟停方面的準確率為85%,心動過緩為30%。然而,在模擬中心臟驟停的準確率為69%,心動過緩為42%。研究指出ChatGPT存在不一致、遺漏、重複和藥物錯誤問題,需要更可靠的指導以避免醫療錯誤。 PubMed DOI

根據專家評估其回答,AI聊天機器人如ChatGPT4和Bard在回答麻醉常見問題時表現優於Bing Chat。儘管這些聊天機器人在溝通品質方面表現出色,但在醫學內容品質方面則有所不足。在這個情況下,ChatGPT4和Bard被發現在這方面與Bing Chat相比是可比且優越的。 PubMed DOI

人工智慧和大型語言模型(LLMs)在醫療保健領域有應用,像是進階燒傷急救(ABLS)計畫。研究比較了三種LLMs(ChatGPT-3.5、ChatGPT-4、Google Bard)在ABLS考試中的表現,結果顯示ChatGPT-4表現最好,得分90%,比Bard好很多。LLMs在急診護理中有潛力,但應該輔助人類判斷。 PubMed DOI

研究比較了AI聊天機器人在心臟病學領域的表現,發現ChatGPT 4.0的準確率最高,Bing次之,Bard最低。ChatGPT在各個心臟病學主題上表現都很好。研究指出ChatGPT 4.0可作為心臟病學教育的重要資源,但也提醒要持續評估和改進Bard等機器人,確保醫學知識的準確性。 PubMed DOI

這項研究評估了四款人工智慧聊天機器人對心肺復甦術(CPR)的回應質量,包括ChatGPT-3.5、Google Bard、Google Gemini和Perplexity。研究人員提出100個常見問題,獲得400個回應,並用修改版的DISCERN問卷及其他指標評估其質量。結果顯示,所有機器人的回應可讀性均超過六年級,其中Bard最佳,ChatGPT-3.5最難閱讀。研究指出,提升病人教育材料的質量和可讀性,可能有助於提高理解能力及病人存活率。 PubMed DOI

這項研究評估了ChatGPT 3.5和4在提供2021年歐洲復甦委員會(ERC)指導方針的準確性。結果顯示,兩個版本都未能涵蓋許多關鍵訊息(ChatGPT-3.5為123條,ChatGPT-4為132條)。雖然大部分生成的內容與指導方針一致(ChatGPT-3.5為77%,ChatGPT-4為84%),但許多回應仍顯得膚淺或不正確。研究強調,醫療專業人員不應僅依賴AI聊天機器人,應參考原始資料以獲得更全面的理解,因為AI的訓練數據可能缺乏最新的資訊。 PubMed DOI

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT 和 Bard,在中級生命支持相關的多選題(MCQs)上的表現。結果顯示,Bard 的整體得分稍高於 ChatGPT,但差異不顯著。兩者在子問題的表現也無明顯差異。雖然有些回答不正確,但它們的解釋仍提供了有用資訊。評分者對解釋的評價一致性高,顯示回答質量穩定。總體來看,這兩個模型表現相似,但在醫學教育的準確性上仍需改進。 PubMed DOI

這項研究評估了ChatGPT在醫療查詢中的可靠性,透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示,ChatGPT在「什麼」問題上表現較好,但在「為什麼」和「如何」問題上則不理想,出現計算錯誤和不正確的單位等問題,甚至有些引用文獻是虛構的。研究結論認為,ChatGPT目前不適合用於醫療學習者或專業人士,因為其回應不一致且參考資料不可靠,可能影響臨床決策。 PubMed DOI