原始文章

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現,ChatGPT-4.0 英文答題最準確且自我覺察,中文則是 ERNIE 表現較好。不過,所有模型在中文表現都稍差,顯示有語言偏差。這提醒我們,AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI


站上相關主題文章列表

這項研究評估了三種大型語言模型(LLMs)在幽門螺旋桿菌感染諮詢中的有效性,重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日,針對15個H. pylori相關問題進行評估。結果顯示,準確性得分為4.80,顯示良好,但完整性和可理解性得分較低,分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出,雖然LLMs在提供資訊上表現不錯,但在完整性和可靠性方面仍需改進,以提升其作為醫療諮詢工具的效能。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-3.5 和 ChatGPT-4,對牙齦和根管健康問題的回答效果。共提出33個問題,包含17個常識性和16個專家級問題,並以中英文呈現。三位專家對回答進行五分制評分。結果顯示,兩者在英文表現較佳,ChatGPT-4的平均得分為4.45,優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性,並指出需進一步評估LLMs以解決其在不同語言環境中的局限性,避免口腔健康資訊誤解。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示: - ChatGPT 提供了最多的全面回答,佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。 總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ERNIE Bot 和 ChatGPT,在回答肝癌介入放射學問題的有效性,特別是針對經動脈化療栓塞(TACE)和肝動脈灌注化療(HAIC)。共設計38個問題,由10位專業人士評估兩者的回答。結果顯示,ERNIE Bot 在中文環境中表現較佳,而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊,但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

糖尿病是全球健康的重要議題,醫療人員對其知識水平參差不齊,顯示出有效訓練的必要性。大型語言模型(LLMs)如ChatGPT-4.0和Google Bard在糖尿病教育上展現新可能性。本研究評估了十個模型在糖尿病相關考試中的表現,結果顯示ChatGPT-4.0在英語考試中通過率達62.50%,在中文考試中也表現優異,準確率高達84.82%。這些模型有潛力提升醫療專業人員的糖尿病訓練效果。 PubMed DOI

這項研究評估了全球大型語言模型(LLMs)和中文領域的LLMs在回答近視相關問題的表現。測試的模型包括ChatGPT-3.5、ChatGPT-4.0、Google Bard等,還有華佗GPT、MedGPT等中文模型。共評估39個問題,專家用3分制評分。結果顯示,ChatGPT-3.5、百度ERNIE 4.0和ChatGPT-4.0在準確性上表現最佳,且ChatGPT系列在全面性和同理心方面也表現不錯。整體來看,無論是全球還是中文模型,都能有效解決近視問題,特別是全球模型表現優異。 PubMed DOI

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示,Gemini 的資訊品質最佳,ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力,但簡化複雜內容的能力不錯。整體來說,這些模型在提供肝硬化健康資訊上表現良好,但品質、可讀性和正確性仍有差異,未來還需進一步改進。 PubMed DOI

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示,英文版 ChatGPT 答案最準確、最實用,特別適合一般病患提問。不過,兩款 LLM 在專業問題上表現都不佳,且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策,資料安全和法律風險也需注意,未來還要進一步研究。 PubMed DOI

這項研究針對2024年ESC心房顫動指引,測試三款大型語言模型(ChatGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro),發現它們在指引一致性上表現中等到高,Claude 3.5 Sonnet用思路鏈提問法時最好(60.3%)。中英文表現差不多,但LLM常建議比指引更積極的治療。建議臨床使用時多問幾次、用不同問法,並持續評估模型表現。 PubMed DOI