原始文章

這項研究比較四款主流大型語言模型在處理胡蜂螫傷案例的表現,結果發現 Claude Pro 最優,ChatGPT 4.0 次之,兩者在複雜案例中都能提供準確且完整的協助。研究強調先進 AI 在急診與中毒醫學的潛力,建議臨床應依需求選擇合適模型。 PubMed DOI


站上相關主題文章列表

這項研究評估了四種大型語言模型(LLMs)在根據臨床案例診斷疾病的表現,包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段,第一階段僅使用案例描述,第二階段則加入答案選項。結果顯示,Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好,但Google Gemini的效能較低,需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs),包括ChatGPT(3.5和4.0版)、Google Gemini和Claude 3,針對葡萄膜炎的臨床問題進行回答。三位專家評估了27個問題的準確性、全面性和可讀性。結果顯示,Claude 3和ChatGPT 4的準確性明顯高於Gemini,Claude 3獲得最高的「優秀」評分(96.3%)。ChatGPT 4在全面性上也優於Gemini,而Gemini在可讀性方面表現最佳。總體來看,Claude 3和ChatGPT 4是提升患者對葡萄膜炎護理理解的有效工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、ChatGPT-4o 和 Claude—在生成手術報告和出院摘要的效果。研究重點在準確性、效率和質量,由整形外科醫生進行驗證。可讀性用不同指數評估,可靠性則用DISCERN分數衡量。結果顯示,Claude在速度和輸出質量上優於其他模型,成為醫療文檔中最有效率的LLM,可能改善醫患溝通和病人結果。研究強調選擇合適的LLMs對臨床應用的重要性。 PubMed DOI

這項研究比較三款AI語言模型在回答川崎病問題時的表現。結果顯示,Claude 3.5 Sonnet 答案最準確,特別適合專業醫師提問;Gemini 1.5 Pro 則在家長提問時最容易理解。不過,所有模型都有可能出現錯誤資訊。建議家長查詢時優先選用 Claude 3.5 Sonnet 並用適合家長的提問方式。未來還需持續改進AI模型,確保醫療資訊正確可靠。 PubMed DOI

這項研究發現,Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師,正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師,但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒,醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

這篇回顧分析168篇研究,發現ChatGPT-4o在選擇題最準,ChatGPT-4開放式問題表現最好,但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出,Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

這項研究比較四種大型語言模型在回答兒童氣喘問題時的表現,結果 GPT-4.0 最優,YouChat 最差,GPT-3.5 和 GPT-4.0 都比其他兩款好,但兩者差異不大。雖然這些模型能提供準確醫療資訊,醫師還是要批判性判斷,不能全然相信。未來隨技術進步,這些模型有望成為可靠的醫療工具。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

這項研究針對2024年ESC心房顫動指引,測試三款大型語言模型(ChatGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro),發現它們在指引一致性上表現中等到高,Claude 3.5 Sonnet用思路鏈提問法時最好(60.3%)。中英文表現差不多,但LLM常建議比指引更積極的治療。建議臨床使用時多問幾次、用不同問法,並持續評估模型表現。 PubMed DOI