LLM 相關三個月內文章 / 第 94 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

醫療聊天機器人常常自信滿滿地給答案,但這種自信其實不代表答案正確。研究發現,九種大型語言模型都有過度自信的問題,信心指數不準確。反而是token probability(模型給答案時的機率)比較能判斷答案對不對。建議醫師和病患不要只看機器人自評的信心,應該參考token probability來判斷答案可靠度。 相關文章 PubMed DOI 推理

很多大學論文藏有有價值但未公開的資料,卻因格式不一、搜尋不便而難以利用。為解決這問題,我們團隊用OCR、Python和大型語言模型,從秘魯論文自動擷取並整理地下水資料。這套系統讓大家能快速、精準、有脈絡地搜尋大量文件,突破傳統搜尋限制,已分享給當地研究人員,也有望推廣全球,加速科學研究。 相關文章 PubMed DOI 推理

NTxPred2 是新一代神經毒性預測工具,針對胜肽和蛋白質分別建模,準確率大幅提升(AUC 分別達 0.98 和 0.94),表現優於舊有方法。它支援網頁和軟體版,能協助評估治療蛋白質和基改食品的安全性,減少動物實驗需求。 相關文章 PubMed DOI 推理

這項研究比較六款AI聊天機器人和三款視覺模型在臉部美容注射治療計畫的表現。結果顯示,以ChatGPT為基礎的聊天機器人(ChatGPTo1和ChatGPT4o)在準確性和安全性上表現較佳,但所有AI系統目前在安全性上仍有限,還不能完全取代人類專業監督。視覺模型則無法提供實用的視覺標註。 相關文章 PubMed DOI 推理

這項研究開發了電腦方法,能準確預測會誘導IL-2的胜肽,對癌症免疫治療很有幫助。研究用超過6,500條實驗數據,發現像丙胺酸和白胺酸這類胺基酸在這些胜肽中較常見。最佳模型AUC高達0.9,並已做成IL2pred網頁和軟體,方便大家設計相關胜肽。 相關文章 PubMed DOI 推理

這項研究比較五款先進大型語言模型在產生牙醫國考選擇題的表現,發現所有模型都能產生高品質且相關性高的題目,題目清晰度和適用性也沒明顯差異。不過,Claude 3.5 Sonnet 在答案解析方面表現最好。整體來說,LLMs 很適合用來製作牙醫考題。 相關文章 PubMed DOI 推理

大型語言模型在放射科報告生成等語言任務上很有潛力,隨著RAG和多步推理技術進步,應用前景更佳。不過,目前還有幻覺、可重現性、隱私和倫理等挑戰待解決。RAG和雲端方案有望協助突破這些障礙,加速臨床導入。 相關文章 PubMed DOI 推理

PT-BitNet 是一種新型後訓練量化技術,能把大型語言模型的權重壓縮成三元值(+1、0、-1),不需重新訓練。它用兩階段演算法,先調整權重再分區塊最佳化,大幅減少模型大小和推論時間,且準確率損失很低。以 700 億參數模型為例,平均準確率可達 61%,比傳統 BitNet 更優。 相關文章 PubMed DOI 推理

這篇論文提出 DemoGraph,一種利用大型語言模型(LLM)從文字提示生成情境知識圖譜,再和原始圖形資料結合的新方法。它不用存取 LLM 內部結構,能有效利用情境資訊。實驗證明,DemoGraph 在電子健康紀錄(EHR)上表現特別好,不只提升預測準確率,也讓模型更容易解釋。 相關文章 PubMed DOI 推理

ICE 是一種新方法,讓多個大型語言模型互相審查和修正答案,直到大家都同意為止。這樣做能大幅提升像醫學問答這類困難題目的準確率,最高可提升 27%。ICE 不用特別訓練或複雜整合,效果比單一模型好,也能跟高成本系統媲美,證明 LLMs 合作推理很有用。 相關文章 PubMed DOI 推理