The promise and peril of using a large language model to obtain clinical information: ChatGPT performs strongly as a fertility counseling tool with limitations.
使用大型語言模型獲取臨床信息的潛在優勢與風險：ChatGPT 在生育諮詢工具中表現出色但存在限制。 Fertil Steril 2023-10-30

2023年2月的研究比較了ChatGPT對生育相關臨床提示的表現，發現與CDC和美國生殖醫學學會相比，ChatGPT在回應長度、事實內容、情感和客觀性方面與CDC相似，但有些事實不正確且缺乏參考資料。ChatGPT在生育知識上表現較好，但在引用來源和提供準確信息方面有限制。建議ChatGPT可提供臨床查詢回應，但需注意資訊準確性。 PubMed DOI

Comparative Performance of ChatGPT and Bard in a Text-Based Radiology Knowledge Assessment.
ChatGPT 和 Bard 在基於文本的放射學知識評估中的比較表現。 Can Assoc Radiol J 2023-12-20

研究比較了ChatGPT-4和Google的Bard在回答放射學委員會考試練習問題的表現。結果顯示，ChatGPT-4在準確度、回答長度和速度方面都比Bard好。ChatGPT在神經放射學、一般與物理學、核醫學、小兒放射學和超聲波方面表現優異。但兩者仍有局限，有時會給出不正確或不合邏輯的答案。 PubMed DOI

Does Google's Bard Chatbot perform better than ChatGPT on the European hand surgery exam?
在歐洲手外科考試中，google Bard 聊天機器人比 ChatGPT 表現更好嗎？ Int Orthop 2024-02-12

研究比較了 Google 的聊天機器人 Bard® 和 ChatGPT® V3.5 在歐洲手外科委員會（EBHS）文憑考試的表現。兩者都沒有通過考試，Bard® 在回答上有一定一致性，但還需要更多學習。總結來說，目前版本的 ChatGPT® 和 Bard® 都無法通過 EBHS 文憑考試的第一部分。 PubMed DOI

Assessing the Accuracy of Information on Medication Abortion: A Comparative Analysis of ChatGPT and Google Bard AI.
評估藥物墮胎資訊的準確性：ChatGPT 和 Google Bard AI 的比較分析。 Cureus 2024-02-07

研究比較了ChatGPT 3.5和Google Bard AI回答藥物墮胎問題的表現。結果顯示ChatGPT在準確度和完整性上表現較好，但仍有些許錯誤。兩者都需要進一步改進，特別是Google Bard AI在準確度和完整性之間有較明顯的關聯。AI聊天機器人能提供資訊，但使用時仍需謹慎。 PubMed DOI

Evaluating the validity of ChatGPT responses on common obstetric issues: Potential clinical applications and implications.
評估 ChatGPT 對常見產科問題回應的有效性：潛在的臨床應用和影響。 Int J Gynaecol Obstet 2024-03-25

研究發現ChatGPT對應專家意見回答懷孕問題表現準確，但在安全性問題上需謹慎。共篩選15問題，專家評分準確性高、完整性中、安全性適當。ChatGPT可提供正確回答，但涉及安全性問題時應小心。 PubMed DOI

Performance of ChatGPT vs. HuggingChat on OB-GYN Topics.
ChatGPT 與 HuggingChat 在婦產科主題上的表現。 Cureus 2024-04-15

這項研究比較了ChatGPT和HuggingChat在回答婦產科醫學考試問題方面的表現。兩個模型在回答標準化測驗問題時表現相似，並且兩者之間的表現沒有統計上顯著的差異。這表明，無論有些限制，ChatGPT和HuggingChat都有潛力應用於醫學領域。 PubMed DOI

A comparative analysis of ChatGPT, ChatGPT-4 and Google Bard performances at the Advanced Burn Life Support Exam.
ChatGPT、ChatGPT-4和Google Bard在高級燒傷救命支援考試表現的比較分析。 J Burn Care Res 2024-06-04

人工智慧和大型語言模型（LLMs）在醫療保健領域有應用，像是進階燒傷急救（ABLS）計畫。研究比較了三種LLMs（ChatGPT-3.5、ChatGPT-4、Google Bard）在ABLS考試中的表現，結果顯示ChatGPT-4表現最好，得分90%，比Bard好很多。LLMs在急診護理中有潛力，但應該輔助人類判斷。 PubMed DOI

ChatGPT's Efficacy in Queries Regarding Polycystic Ovary Syndrome and Treatment Strategies for Women Experiencing Infertility.
ChatGPT 在有關多囊卵巢綜合症和經歷不孕症的女性治療策略的查詢中的功效。 Diagnostics (Basel) 2024-06-19

研究發現ChatGPT-4在回答與PCOS相關不孕症問題上表現良好，尤其在是非題方面表現完美。儘管多選題稍微下降，但整體表現仍穩定。這項研究強調ChatGPT-4對醫護人員在處理PCOS相關不孕症問題上的幫助。 PubMed DOI

Comparative Analysis of Performance of Large Language Models in Urogynecology.
大型語言模型在泌尿婦科表現的比較分析。 Urogynecology (Phila) 2024-07-02

研究比較了ChatGPT-3.5、GPT-4和Bard在泌尿婦科檢查的表現。結果顯示GPT-4回答問題最多，其次是GPT-3.5和Bard。三者皆展現邏輯推理，Bard最常參考來源。GPT-4和Bard引用期刊文章和學會指南，GPT-3.5引用書籍和網站。雖GPT-4表現最佳，但無一及格。建議臨床醫師使用語言模型時要謹慎，等待更多證據。 PubMed DOI

Analyzing Large Language Models' Responses to Common Lumbar Spine Fusion Surgery Questions: A Comparison Between ChatGPT and Bard.
分析大型語言模型對常見腰椎融合手術問題的回答：ChatGPT 和 Bard 的比較。 Neurospine 2024-07-02

研究比較OpenAI的ChatGPT 3.5和Google的Bard在回答腰椎融合手術問題時的表現，結果顯示兩者回答品質高，但在手術風險、成功率和手術方法等特定問題上表現較差。評分者間一致性不高，Bard在同理心和專業性方面稍遜。未來需加強大型語言模型在醫學教育和醫療溝通的應用。 PubMed DOI

原始文章

站上相關主題文章列表