原始文章

這項研究探討了大型語言模型(LLMs),如ChatGPT-4、Bing和Bard,對肝臟病學臨床問題的回答效果。研究於2023年9月進行,涵蓋144個多選題和開放式問題。結果顯示,ChatGPT-4在多選題的準確率為62.3%,開放式問題則為44.4%,均為最高;Bing和Bard的表現則較低。值得注意的是,ChatGPT-4和Bing回答了所有問題,而Bard有11.8%的問題無法回應。研究建議需進一步探討如何在臨床和教育中最佳利用這些模型。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示,ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值,但專家驗證仍然至關重要,以避免不準確或資訊不完整的情況。 PubMed DOI

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤學問題時的表現。結果顯示,ChatGPT-4和ChatGPT-3.5在回答問題、可重現性、準確性、相關性和可讀性方面都比Google Bard好。雖然ChatGPT模型在免疫腫瘤學領域有潛力,但專家驗證仍然至關重要,以避免不準確或不完整的情況。 PubMed DOI

ASMBS教科書是肥胖手術的寶貴資源,對外科教育有很大幫助。研究發現,ChatGPT-4在回答肥胖手術相關問題時表現最準確,尤其在治療和併發症方面優於Bard和Bing。未來應該深入探討ChatGPT-4等人工智慧模型在外科培訓和教育中的應用價值。 PubMed DOI

人工智慧和大型語言模型(LLMs)在醫療保健領域有應用,像是進階燒傷急救(ABLS)計畫。研究比較了三種LLMs(ChatGPT-3.5、ChatGPT-4、Google Bard)在ABLS考試中的表現,結果顯示ChatGPT-4表現最好,得分90%,比Bard好很多。LLMs在急診護理中有潛力,但應該輔助人類判斷。 PubMed DOI

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題,並由六位專業醫師評估其準確性和可讀性。結果顯示,ChatGPT 準確回答 9 題(45%),Gemini 12 題(60%),Bing 6 題(30%)。但在準確性和可靠性方面,ChatGPT 只有 6 題(30%)同時符合,Gemini 8 題(40%),Bing 3 題(15%)。可讀性方面,ChatGPT 得分最低(29),顯示其可讀性差。研究指出,這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

自體免疫性肝病(AILDs)較為罕見,醫療提供者需仔細評估。研究探討了四款聊天機器人(ChatGPT 3.5、Claude、Microsoft Copilot 和 Google Bard)在臨床決策支持中的潛力。十位肝臟專家針對56個問題進行評估,結果顯示Claude得分最高(7.37),ChatGPT次之(7.17)。研究發現這些機器人常提供一般性資訊、劑量資訊不足,且對孕婦的建議不準確。雖然聊天機器人有潛力,但仍需改善資訊的具體性與準確性,以提升其在自體免疫性肝病管理中的有效性。 PubMed DOI

最近的研究顯示,透過大型語言模型(LLMs)在急性肝衰竭(ALF)問題上的表現,特別是使用增強檢索生成(RAG)技術的ChatGPT 4,顯示出顯著的優勢。研究中評估了五個模型,結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳,得分分別為4.70、4.89和4.78。相比之下,其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力,但也指出其需持續進化以符合實際需求。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5和Gemini,提供肝病病人資訊的有效性,並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示,LLM生成的回應與專家回應之間沒有顯著差異,兩組的平均分數都很高,顯示LLMs能提供可靠的肝病資訊。整體而言,研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI