LLM 相關三個月內文章 / 第 103 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較七款AI聊天機器人在土耳其牙科專科考試補綴牙科題目的表現。ChatGPT-4表現最好,正確率75.8%,特別擅長知識型題目;Gemini AI最差,正確率46.1%。所有AI在案例型題目上都較弱。結果顯示,AI可輔助牙科教育,但面對複雜臨床情境還需加強。 相關文章 PubMed DOI 推理

ChatGPT-3.5 在456題波蘭醫學實驗室遺傳學考題中,整體正確率59%,計算題表現最好(71%),臨床案例題最差(37%)。簡單題正確率63%,複雜題43%。多次測驗結果穩定,但在複雜專業推理上仍有限,暫不適合用於醫學遺傳學教育或考試。 相關文章 PubMed DOI 推理

研究發現,ChatGPT雖然能正確回答部分輸血醫學的基礎問題,但在複雜或新穎主題上常出現錯誤甚至危險的答案,且錯誤內容表達得很有自信,容易誤導學生。約三分之一回答未通過專家審查,因此目前不建議用ChatGPT作為輸血醫學的學習工具。 相關文章 PubMed DOI 推理

這篇文章介紹ELEVATE-GenAI框架和檢查清單,這是首套專為健康經濟與療效研究(HEOR)中應用大型語言模型(LLMs)設計的標準化報告指引。該框架涵蓋十個重點面向,並以兩個實例說明其實用性。雖然有助提升研究透明度與可重現性,但還需更多測試來優化和推廣。 相關文章 PubMed DOI 推理

這項研究比較四款大型語言模型在外科考題上的表現,發現 ChatGPT 4o 答對率最高(81.3%),其他模型較低。雖然 Gemini 和 Perplexity 內部答案一致,但不同模型間差異大,各專科表現也不同。整體來說,這些 AI 對外科教育有潛力,但可靠性不足,高風險考試時要小心使用。 相關文章 PubMed DOI 推理

這篇研究提出 iALP 方法,結合 ProtT5 語言模型和 GLU,有效辨識過敏原蛋白,準確率高達 0.957,表現比現有方法更好。iALP 工具可在 GitHub 下載,未來有助於提升過敏預防和治療策略。 相關文章 PubMed DOI 推理

**重點整理:** 大型語言模型(LLMs),像是GPT,對於氣候變遷的影響,往往會比專家共識(例如IPCC報告)還要誇大。這種高估的偏誤,在LLMs被設定成「氣候科學家」的角色時會更明顯。讓LLMs的回答與專家觀點一致很重要,這樣才能避免大眾產生錯誤的認知。 相關文章 PubMed DOI 推理

這項研究用transformer AI模型,結合紅外線、紫外線和^1H NMR光譜數據,能在幾秒內準確預測有機分子結構,取代傳統慢速專家系統。模型訓練於約10萬2千筆資料,解析29個原子內的分子,前15名準確率達83%,展現生成式AI在化學結構解析上的高效率與潛力。 相關文章 PubMed DOI 推理

這個全新AI架構結合視覺與語言模型,能從CTPA掃描自動偵測32種與肺栓塞相關的異常,並產生結構化報告。模型用超過6.9萬份多家醫院資料訓練,無論異常偵測、報告品質或預測存活率都優於現有方法,為PE診斷和預後帶來更全面、可解釋的解決方案。 相關文章 PubMed DOI 推理

機器學習人格評估(ML-PA)用行為數據來分析,比傳統問卷更有潛力,尤其用他人觀察資料時,效度和外部相關性都不錯。不過,信度還是偏低,特別是自我報告。樣本數、資料量和特質啟動都會影響準確度,演算法偏誤也要注意。未來隨著大型語言模型和可解釋性提升,ML-PA 有望更進步。 相關文章 PubMed DOI 推理