原始文章

這項研究發現,結合多種大型語言模型(如Gemini-GPT)在預測肝細胞癌免疫治療反應上,表現和資深醫師差不多,甚至比資淺醫師更好。不過,模型的敏感度還是比資深醫師低。整體來說,這些AI工具未來有機會協助醫師做臨床決策。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

這項研究探討大型語言模型(LLMs)與對比增強超聲肝臟影像報告系統(CEUS LI-RADS)結合,對高風險患者診斷小型肝細胞癌(sHCC)的效果。研究涵蓋403名未治療的高風險患者,評估的LLMs包括ChatGPT-4.0等。結果顯示,ChatGPT-4.0在CEUS LI-RADS分類上表現優於其他模型,且在檢測sHCC的敏感性上也優於ChatGPT-4o。整體而言,研究建議ChatGPT-4.0結合CEUS LI-RADS,可能成為診斷sHCC的有效工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒(HBV)相關問題的表現。醫療專業人員對其準確性進行評分,並評估可讀性。 主要發現包括: - 所有 LLM 在主觀問題上得分高,ChatGPT-4.0 準確性最高。 - 在客觀問題上,ChatGPT-4.0 準確率為 80.8%,優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳,Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級,對一般讀者來說可能過於複雜。 結果顯示,LLMs,特別是 ChatGPT-4.0,可能成為有關 HBV 的資訊工具,但不應取代醫生的個人化建議。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄,測試了三個AI模型:Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示,Claude3-Opus準確率86.6%,GPT4-Turbo為85.7%,LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好,但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示,Gemini 的資訊品質最佳,ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力,但簡化複雜內容的能力不錯。整體來說,這些模型在提供肝硬化健康資訊上表現良好,但品質、可讀性和正確性仍有差異,未來還需進一步改進。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

這項研究用88份真實MRI肝臟病灶報告,測試多款大型語言模型的分類能力。結果發現,Claude 3.5 Sonnet準確率最高,勝過GPT-4o等其他模型。雖然LLM有潛力協助醫療診斷,但臨床應用前還需更多驗證,嚴謹測試也很重要。 PubMed DOI