原始文章

在2023年8月的一項分析中,對ChatGPT-3.5和Bard(Google Gemini)在回答12個懷孕問題的表現進行比較。根據美國婦產科醫學會的標準,ChatGPT-3.5的可接受回答率為58%,而Bard則達到83%。此外,ChatGPT-3.5的參考資料全有問題,Bard只有8%不一致。整體來看,Bard在準確性上優於ChatGPT-3.5,但兩者都需進一步評估才能成為懷孕婦女的可靠資訊來源。 PubMed DOI


站上相關主題文章列表

2023年2月的研究比較了ChatGPT對生育相關臨床提示的表現,發現與CDC和美國生殖醫學學會相比,ChatGPT在回應長度、事實內容、情感和客觀性方面與CDC相似,但有些事實不正確且缺乏參考資料。ChatGPT在生育知識上表現較好,但在引用來源和提供準確信息方面有限制。建議ChatGPT可提供臨床查詢回應,但需注意資訊準確性。 PubMed DOI

研究比較了ChatGPT-4和Google的Bard在回答放射學委員會考試練習問題的表現。結果顯示,ChatGPT-4在準確度、回答長度和速度方面都比Bard好。ChatGPT在神經放射學、一般與物理學、核醫學、小兒放射學和超聲波方面表現優異。但兩者仍有局限,有時會給出不正確或不合邏輯的答案。 PubMed DOI

研究比較了 Google 的聊天機器人 Bard® 和 ChatGPT® V3.5 在歐洲手外科委員會(EBHS)文憑考試的表現。兩者都沒有通過考試,Bard® 在回答上有一定一致性,但還需要更多學習。總結來說,目前版本的 ChatGPT® 和 Bard® 都無法通過 EBHS 文憑考試的第一部分。 PubMed DOI

研究比較了ChatGPT 3.5和Google Bard AI回答藥物墮胎問題的表現。結果顯示ChatGPT在準確度和完整性上表現較好,但仍有些許錯誤。兩者都需要進一步改進,特別是Google Bard AI在準確度和完整性之間有較明顯的關聯。AI聊天機器人能提供資訊,但使用時仍需謹慎。 PubMed DOI

研究發現ChatGPT對應專家意見回答懷孕問題表現準確,但在安全性問題上需謹慎。共篩選15問題,專家評分準確性高、完整性中、安全性適當。ChatGPT可提供正確回答,但涉及安全性問題時應小心。 PubMed DOI

這項研究比較了ChatGPT和HuggingChat在回答婦產科醫學考試問題方面的表現。兩個模型在回答標準化測驗問題時表現相似,並且兩者之間的表現沒有統計上顯著的差異。這表明,無論有些限制,ChatGPT和HuggingChat都有潛力應用於醫學領域。 PubMed DOI

人工智慧和大型語言模型(LLMs)在醫療保健領域有應用,像是進階燒傷急救(ABLS)計畫。研究比較了三種LLMs(ChatGPT-3.5、ChatGPT-4、Google Bard)在ABLS考試中的表現,結果顯示ChatGPT-4表現最好,得分90%,比Bard好很多。LLMs在急診護理中有潛力,但應該輔助人類判斷。 PubMed DOI

研究發現ChatGPT-4在回答與PCOS相關不孕症問題上表現良好,尤其在是非題方面表現完美。儘管多選題稍微下降,但整體表現仍穩定。這項研究強調ChatGPT-4對醫護人員在處理PCOS相關不孕症問題上的幫助。 PubMed DOI

研究比較了ChatGPT-3.5、GPT-4和Bard在泌尿婦科檢查的表現。結果顯示GPT-4回答問題最多,其次是GPT-3.5和Bard。三者皆展現邏輯推理,Bard最常參考來源。GPT-4和Bard引用期刊文章和學會指南,GPT-3.5引用書籍和網站。雖GPT-4表現最佳,但無一及格。建議臨床醫師使用語言模型時要謹慎,等待更多證據。 PubMed DOI

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現,結果顯示兩者回答品質高,但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高,Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI