LLM 相關三個月內文章 / 第 62 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

隨著放射科醫療需求增加、醫師人力短缺,如何快速又準確產生放射科報告成為難題。近年AI技術,像transformer、視覺-語言模型和大型語言模型,為自動化報告生成帶來新契機。本文回顧2021至2025年相關發展,重點介紹新技術、資料集、評估方式,並比較各模型優缺點,提出未來改進方向。 相關文章 PubMed DOI 推理

這篇研究比較五款大型語言模型在醫療領域的專業化表現,發現用檢索增強生成(RAG)和結合微調(FT+RAG)的方法,效果都比單純微調好,尤其 LLAMA 和 PHI 這兩款模型表現最亮眼。LLAMA 整體最強,PHI 在 RAG/FT+RAG 下也很突出,QWEN 則最弱,GEMMA 和 MISTRAL 表現不太穩定。 相關文章 PubMed DOI 推理

這項研究提出 sleepCare 機器學習流程,運用 NLP 和 BERT 等模型,把敘述型睡眠報告自動分類到臨床相關類別。經 475 份標註資料測試,BERT+SVM 模型準確率達 81%、macro F1-score 為 0.78。這方法可大規模、遠端且個人化辨識睡眠障礙,有助早期發現與臨床判斷。 相關文章 PubMed DOI 推理

GeneAgent 是一款基因集分析 AI 工具,結合大型語言模型並自動查核生物資料庫,能有效減少錯誤。實測超過 1,100 組基因集,準確度和描述完整度都優於 GPT-4,專家也認可。這工具能幫助研究人員更快獲得新發現。 相關文章 PubMed DOI 推理

這項研究比較五款主流大型語言模型在植牙專業問題和臨床案例上的表現,發現Gemini-2.0-flash-Thinking在準確性和臨床支援上表現最好。研究建議,牙科臨床應用時應根據實際需求挑選最合適的模型。 相關文章 PubMed DOI 推理

這篇論文提出用大型語言模型自動生成圖片間差異的文字描述,從未標註圖片創造偽標註資料,讓 CIR 在半監督、領域適應等情境下都能有效運作。這方法不只提升效能,也突破傳統監督式或 zero-shot 的限制,在 CIR 基準測試上表現最佳。 相關文章 PubMed DOI 推理

傳統臨床試驗招募流程又慢又沒效率,這篇論文提出用知識圖譜和大型語言模型來自動化初步篩選,包括問卷產生、資格評估和回覆問題。這方法不只準確率高(摘要回覆達90%),也符合法規和倫理,能大幅提升招募速度和效率。 相關文章 PubMed DOI 推理

研究發現,像 GPT-4 這類大型語言模型,在「獨裁者遊戲」這種社會情境下,常會模仿人類的利他行為,但在非社會任務時則偏向自利。只要提示內容強調參與者需求,模型就更容易展現利他反應,顯示 LLMs 能根據指令調整行為,模擬出人類的利他表現。 相關文章 PubMed DOI 推理

這項研究推出GutGPT,一個專為腸胃道疾病設計的AI聊天模型,利用超過19萬筆高品質醫學問答資料訓練而成。GutGPT在診斷準確率和同理心表現都比現有16種模型更好,專家測試診斷率提升近10%,公開資料集提升超過22%。未來有望成為協助醫師和病患管理腸胃疾病的好幫手。 相關文章 PubMed DOI 推理

研究用60題牙髓治療問題測試5款AI聊天機器人,結果ChatGPT-4.0表現最好,正確率最高且穩定(整體82.5%,基礎題95%)。Copilot Pro最差,Gemini和ChatGPT-3.5中等,Gemini有進步但Copilot Pro表現下滑。整體來說,臨床決策支援以ChatGPT-4.0最可靠,其他AI遇到複雜問題時表現較不穩定。 相關文章 PubMed DOI 推理