原始文章

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題,並由六位專業醫師評估其準確性和可讀性。結果顯示,ChatGPT 準確回答 9 題(45%),Gemini 12 題(60%),Bing 6 題(30%)。但在準確性和可靠性方面,ChatGPT 只有 6 題(30%)同時符合,Gemini 8 題(40%),Bing 3 題(15%)。可讀性方面,ChatGPT 得分最低(29),顯示其可讀性差。研究指出,這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

慢性乙型肝炎(CHB)在全球造成重大挑戰,尤其在中國等高盛行率地區。本研究探討AI助手ChatGPT-3.5在CHB管理中的潛力,特別是其提供個性化醫療諮詢的能力。研究發現,ChatGPT-4.0在資訊量和一致性上表現優於3.5,準確率達93.3%。然而,兩者在情感管理上表現不佳,需改進。研究建議針對情感管理進行專門訓練,並進一步探討免責聲明對病人經驗的影響。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,對黑色素瘤病人問題的回答效果,並與荷蘭的病人資訊資源(PIRs)比較。結果顯示,ChatGPT-3.5在準確性上表現最佳,而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定,某網站在個人化和可讀性上特別強。整體來看,LLMs在大多數領域超越PIRs,但準確性仍需加強,且LLM的可重複性隨時間下降。研究強調,LLMs需提升準確性和可重複性,才能有效取代或補充傳統PIRs。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示: - ChatGPT 提供了最多的全面回答,佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。 總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。 PubMed DOI

這項研究首次評估了ChatGPT和Gemini聊天機器人在提供病毒性肝炎資訊的準確性與可靠性。研究共分析176個問題,結果顯示兩者的平均分數相近(3.55對3.57),且正確回答比例也相似(71.0%對78.4%)。在CDC問題上,兩者的正確率都很高,但在國際指導方針問題上則表現不佳。整體而言,雖然在CDC和社交媒體問題上表現良好,但在指導方針的準確性上仍有待加強。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5、ChatGPT-4和Google Bard,在提供疾病流行病學數據的準確性。研究設計了21個問題,並將其提交給每個模型兩次。結果顯示,ChatGPT-4的準確率最高,達76.2%,其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳,但三者皆存在不準確性和參考文獻問題,限制了它們在醫藥和學術界的實用性。 PubMed DOI

炎症性腸病(IBD)影響全球數百萬人,因此有效的病人教育非常重要。大型語言模型(LLMs)如ChatGPT-4.0、Claude-3-Opus和Gemini-1.5-Pro可能能提供相關資訊,但其準確性尚未廣泛研究。研究中,腸胃科專家設計了15個IBD問題,評估這三個模型的表現。結果顯示,這些模型在基本資訊上表現良好,但在複雜主題如藥物副作用和飲食改變時,表現差異明顯。Claude-3-Opus在可讀性上表現最佳。儘管顯示潛力,但仍需進一步優化以確保資訊的準確性和安全性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5和Gemini,提供肝病病人資訊的有效性,並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示,LLM生成的回應與專家回應之間沒有顯著差異,兩組的平均分數都很高,顯示LLMs能提供可靠的肝病資訊。整體而言,研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI