原始文章

這項研究評估了AI語言模型Claude 3 Opus在生成腎臟病理影像診斷描述的表現。研究團隊整理了100張影像,涵蓋各種常見腎臟疾病。雖然Claude 3 Opus在語言流暢性上得分不錯(3.86),但在臨床相關性(1.75)、準確性(1.55)、完整性(2.01)和整體價值(1.75)方面表現不佳。不同疾病類型的表現差異明顯,病理學家的評分一致性高,但準確性和完整性則中等。研究顯示AI生成的描述雖流暢,但準確性和臨床相關性仍需改進,未來應探討數據來源的限制並與其他模型比較。 PubMed DOI


站上相關主題文章列表

研究比較了四個AI語言模型,發現Claude AI在完整性和相關性表現最好,ChatGPT表現穩定,Google Bard則回應不清晰。這些結果對於提升醫學AI模型有啟發意義。 PubMed DOI

大型語言模型(LLMs)如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro在解讀病患病史和影像檢查結果上有潛力。研究比較它們在Radiology Diagnosis Please Cases數據的表現,發現Claude 3 Opus在解決放射學測驗案例時表現最佳。這些LLMs可能有助於放射科醫師更準確地評估和描述影像檢查結果。 PubMed DOI

研究比較三個大型語言模型聊天機器人在幫忙歸類放射學報告時的表現。結果顯示,Claude-2在使用結構化提示和指南PDF時最準確,特別是對於LI-RADS 2018版本。但沒有提示時,所有機器人表現不佳,且在RADS標準上有差異。Claude-2展現了根據標準歸類RADS類別的潛力,但應用較新標準時遇到困難。 PubMed DOI

這項研究評估了兩個大型語言AI模型,Claude 3 Opus和Claude 3.5 Sonnet,在放射影像和臨床歷史下的診斷表現。測試分為三種條件:僅臨床歷史、臨床歷史加影像發現,以及臨床歷史加關鍵影像。結果顯示,Sonnet的表現普遍較佳,尤其在條件3中,正確診斷率達30.1%。統計分析顯示,加入關鍵影像和臨床歷史能顯著提高診斷準確性。總體而言,提供全面資料能提升這兩個AI模型的診斷能力。 PubMed DOI

最近在人工智慧(AI)和大型語言模型(LLMs)方面的進展,特別是在皮膚科,顯示出良好的潛力。本研究比較了Claude 3 Opus和ChatGPT(GPT-4)在分析皮膚鏡影像以檢測黑色素瘤的表現。結果顯示,Claude 3 Opus在惡性區分上表現較佳,敏感度和特異度均高於ChatGPT。雖然兩者在診斷上有其潛力,但仍存在錯誤,強調了AI與臨床醫生合作的重要性,以開發更可靠的診斷工具。 PubMed DOI

這項研究評估了新推出的AI模型Claude 3 Opus在診斷和規劃頭頸部鱗狀細胞癌(HNSCC)治療的效果,並與ChatGPT 4.0進行比較。研究於2024年3月進行,涵蓋50例HNSCC病例,並將AI模型的建議與傳統的多學科腫瘤委員會(MDT)建議進行對比。結果顯示,Claude 3 Opus在診斷準確性上優於ChatGPT 4.0,且提供的治療建議與MDT一致。雖然在臨床建議和解釋方面表現相當,但Claude 3未引用資訊來源。總體而言,Claude 3 Opus顯示出作為診斷工具的潛力,建議在臨床環境中使用。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4o 和 Claude 3 Opus,在根據病歷和屍體CT掃描識別死亡原因的能力。研究涵蓋100個經解剖確認的成人案例。結果顯示,GPT-4o在根本死亡原因的準確率為78%、72%和78%,而Claude 3 Opus則為72%、56%和75%。在即時死亡原因方面,GPT-4o的準確率較低,分別為55%、58%和62%,而Claude 3 Opus稍高,為60%、62%和63%。整體而言,兩者在診斷死亡原因上表現不俗。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4o和Claude 3-Opus,在超音波影像中分類甲狀腺結節的表現。研究涵蓋112位患者的116個結節,結果顯示ChatGPT-4o的Kappa值為0.116,Claude 3-Opus更低,僅0.034,而初級放射科醫師的Kappa值為0.450,顯示中等協議。ROC曲線方面,ChatGPT-4o的AUC為57.0%,Claude 3-Opus為52.0%,醫師則為72.4%。兩個LLM的不必要活檢率也高,分別為41.4%和43.1%,醫師僅12.1%。這顯示LLMs在醫學影像的診斷準確性仍有限,需謹慎使用。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在根據臨床案例診斷疾病的表現,包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段,第一階段僅使用案例描述,第二階段則加入答案選項。結果顯示,Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好,但Google Gemini的效能較低,需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

這項研究評估了AI模型Claude 3.5-Sonnet在為腎功能不全患者生成出院摘要的表現,並與人類醫師進行比較。研究在寧波杭州灣醫院進行,涵蓋100名患者。結果顯示,AI的準確性與醫師相似,但生成摘要的效率顯著更高,僅需約30秒,而醫師則超過15分鐘。質量評分也相當,未見顯著差異。整體而言,Claude 3.5-Sonnet展現了高效率和可靠性,顯示AI在醫療文檔處理上有潛力,並需進一步研究以解決倫理和隱私問題。 PubMed DOI