LLM 相關三個月內文章 / 第 12 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究開發了用GPT評分溝通技巧的工具,總分跟真人評分差不多,但細項能力評分落差大。這工具適合一般、低風險評量,但要用在細部或高風險評估,可靠度還不夠,需要再加強。 相關文章 PubMed DOI 推理

像 ChatGPT、Bard 這類生成式 AI,現在常被用來協助醫療系統性回顧。它們在擬定研究問題和資料萃取上表現不錯,但在文獻搜尋和篩選時,結果常常不夠精確或一致。至於偏誤風險評估,目前還沒有明確結論。整體來說,GAI 很有潛力,但還需要更多實際驗證才能正式納入醫療流程。 相關文章 PubMed DOI 推理

GPT-4這類大型語言模型能根據MRI報告,協助判斷腦內原發性腦瘤,對常見腫瘤如膠質母細胞瘤表現不錯,適合給非專科醫師參考。不過,診斷罕見或複雜腫瘤時,還是比不上神經放射科醫師的專業判讀。模型選擇和腫瘤類型也會影響診斷準確度。 相關文章 PubMed DOI 推理

這項研究發現,AI 在產生英文商業內容和郵件時,表現比阿拉伯文和中文好,尤其在技術性任務上,中文和阿拉伯文的行動力和創意都較弱。這代表非英語使用者可能會被邊緣化,全球生產力差距也可能因此擴大,顯示開發更包容多語言的 AI 很重要。 相關文章 PubMed DOI 推理

TRIAGE 基準測試用來評估大型語言模型在醫療大量傷患時的倫理決策能力。研究發現,大多數模型表現優於隨機,但開源模型較容易犯嚴重倫理錯誤。意外的是,明確的倫理指引反而讓模型表現變差,挑戰性提問也會降低準確率。這顯示情境和提問方式會大幅影響模型在高風險醫療情境下的表現,並突顯其優缺點。 相關文章 PubMed DOI 推理

腸胃科和肝臟科的臨床決策越來越複雜,傳統CDSS常遇到瓶頸。生成式AI像大型語言模型能處理非結構化資料,提供更彈性的個人化建議,為臨床決策帶來新契機。不過,還有偏誤、幻覺、系統整合和醫護訓練等挑戰待克服。 相關文章 PubMed DOI 推理

這項研究發現,AI聊天機器人(如ChatGPT、Copilot、Gemini)產生的假牙衛教內容,雖然有助於病患了解資訊,但內容長度、可讀性和正確性會因主題和來源而異。建議牙醫師在推薦AI生成的衛教資料前,務必先審核內容品質,確保資訊正確無誤。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4o能準確辨識心電圖影像,並在少量範例學習下,以83%準確率分辨正常與異常心電圖,但辨識特定病理的準確率僅41%。雖然還不適合做詳細診斷,但在初步篩檢和分流上有潛力,未來可望成為方便的輔助工具。 相關文章 PubMed DOI 推理

MammaBoardGPT 結合歐洲指引和實際病例訓練,在25個乳癌案例中,治療決策有84%和腫瘤委員會一致,優於標準GPT-4的76%,且無完全不符情形。顯示其有助臨床決策,但仍需更多臨床驗證。 相關文章 PubMed DOI 推理

這篇論文提出「情感增強推理」(EAI)方法,透過結合情感訊號和視覺對比式解碼,有效減少大型語言模型在多模態生成時的幻覺現象。實驗證明,EAI 在 MSCOCO 和 GQA 資料集上,關鍵指標提升 4–8%,特別是在情感強烈的情境下效果更明顯,讓 AI 輸出更準確、更貼近人類情感。 相關文章 PubMed DOI 推理