原始文章

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題,並由六位專業醫師評估其準確性和可讀性。結果顯示,ChatGPT 準確回答 9 題(45%),Gemini 12 題(60%),Bing 6 題(30%)。但在準確性和可靠性方面,ChatGPT 只有 6 題(30%)同時符合,Gemini 8 題(40%),Bing 3 題(15%)。可讀性方面,ChatGPT 得分最低(29),顯示其可讀性差。研究指出,這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI


站上相關主題文章列表

大型語言模型如BARD、BingAI和ChatGPT-4正被運用在醫療領域,提供醫學資訊和指導。研究顯示,ChatGPT在黑色素瘤臨床指南方面表現較佳,但所有模型仍有限制。未來研究應該著重整合專業數據和專家知識,以提升模型性能,更好地支援患者護理。 PubMed DOI

研究比較了三個大型語言模型在提供喉癌資訊的表現,發現ChatGPT 3.5比ChatGPT 4.0和Bard更可靠安全。耳鼻喉科專家、初級醫師和非醫學評審參與評估,認為ChatGPT 3.5的回應安全性和質量最佳。總結來說,像ChatGPT 3.5這樣的語言模型對尋求喉癌資訊的患者是有價值的資源。 PubMed DOI

研究比較了ChatGPT-4、Gemini和Microsoft Copilot在回答乳房影像問題時的易讀性和準確性。雖然ChatGPT-4更準確,但Gemini和Microsoft Copilot更容易理解。在醫療保健中,準確性和易讀性同樣重要,強調了在使用人工智慧技術時需要持續改進和監督。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT-3.5和New Bing Chat,在模擬醫生角色管理甲狀腺結節的表現。研究中提出145個病人的問題,並與初級醫生和資深醫生的回答進行比較。結果顯示,這兩個LLMs在某些問題上表現接近初級醫生,但整體準確性較低。雖然ChatGPT-3.5在特定問題上表現較好,但New Bing Chat在甲狀腺結節的決策準確性較高。總體而言,這些LLMs尚未達到人類醫生的臨床決策能力。 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI