原始文章

這項研究評估了兩個大型語言模型(LLMs),ERNIE Bot 和 ChatGPT,在回答肝癌介入放射學問題的有效性,特別是針對經動脈化療栓塞(TACE)和肝動脈灌注化療(HAIC)。共設計38個問題,由10位專業人士評估兩者的回答。結果顯示,ERNIE Bot 在中文環境中表現較佳,而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊,但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI


站上相關主題文章列表

這項研究評估了三種大型語言模型(LLMs)在幽門螺旋桿菌感染諮詢中的有效性,重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日,針對15個H. pylori相關問題進行評估。結果顯示,準確性得分為4.80,顯示良好,但完整性和可理解性得分較低,分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出,雖然LLMs在提供資訊上表現不錯,但在完整性和可靠性方面仍需改進,以提升其作為醫療諮詢工具的效能。 PubMed DOI

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題,並由六位專業醫師評估其準確性和可讀性。結果顯示,ChatGPT 準確回答 9 題(45%),Gemini 12 題(60%),Bing 6 題(30%)。但在準確性和可靠性方面,ChatGPT 只有 6 題(30%)同時符合,Gemini 8 題(40%),Bing 3 題(15%)。可讀性方面,ChatGPT 得分最低(29),顯示其可讀性差。研究指出,這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

慢性乙型肝炎(CHB)在全球造成重大挑戰,尤其在中國等高盛行率地區。本研究探討AI助手ChatGPT-3.5在CHB管理中的潛力,特別是其提供個性化醫療諮詢的能力。研究發現,ChatGPT-4.0在資訊量和一致性上表現優於3.5,準確率達93.3%。然而,兩者在情感管理上表現不佳,需改進。研究建議針對情感管理進行專門訓練,並進一步探討免責聲明對病人經驗的影響。 PubMed DOI

這項研究評估了四個國內語言模型—ERNIE Bot、ChatGLM2、Spark Desk 和 Qwen-14B-Chat—在提供根治性前列腺切除術(PCa)患者的圍手術護理和健康教育諮詢的效率。結果顯示,所有模型的回應品質都很高,且沒有誤導性資訊。Qwen-14B-Chat在各項評估中表現最佳,特別穩定;ChatGLM2在案例分析上也表現不錯。Spark Desk在可理解性上優秀,但全面性和人文關懷稍顯不足,而ERNIE Bot的表現最差。總體來看,Qwen-14B-Chat是提升PCa患者教育和遵從性的最佳工具。 PubMed DOI

這項研究評估了AI聊天機器人,特別是ChatGPT和Google Bard在提供前列腺癌教育資訊的表現。研究發現,所有大型語言模型的準確性相似,但ChatGPT-3.5在一般知識上表現優異。ChatGPT-4的回答則更全面,而Bard的回答最易讀,獲得最高的易讀性分數。總體來說,這些AI模型雖無法取代醫療專業人員,但能有效協助病人了解前列腺癌的相關知識。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,對黑色素瘤病人問題的回答效果,並與荷蘭的病人資訊資源(PIRs)比較。結果顯示,ChatGPT-3.5在準確性上表現最佳,而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定,某網站在個人化和可讀性上特別強。整體來看,LLMs在大多數領域超越PIRs,但準確性仍需加強,且LLM的可重複性隨時間下降。研究強調,LLMs需提升準確性和可重複性,才能有效取代或補充傳統PIRs。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示: - ChatGPT 提供了最多的全面回答,佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。 總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。 PubMed DOI

這項研究評估了兩款人工智慧聊天機器人,ChatGPT 和 ERNIE Bot,在回答超聲波醫學檢查問題上的表現。共整理了554個問題,涵蓋多種主題,並以中英文提出。結果顯示,ERNIE Bot 在客觀問題上表現優於 ChatGPT,特別是在英文方面。主觀問題的接受率介於47.62%到75.36%之間。整體來看,雖然聊天機器人能提供有用的資訊,但表現因模型、語言及問題類型而異,建議使用者選擇最合適的模型。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5和Gemini,提供肝病病人資訊的有效性,並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示,LLM生成的回應與專家回應之間沒有顯著差異,兩組的平均分數都很高,顯示LLMs能提供可靠的肝病資訊。整體而言,研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI