LLM 相關三個月內文章 / 第 104 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

PEAR獎是由貝勒醫學院學生發起,專門表揚優秀的教育者,得獎者多為不同科別的近身師長。學生最重視老師的教學能力、親切態度和建設性回饋。得獎者普遍表示這個獎項帶來正面影響。這個低成本計畫不只突顯好老師的特質,也有助提升教育者的幸福感和教學動力。 相關文章 PubMed DOI 推理

ChatGPT-4o 在英美醫師執照考試表現亮眼,即使遇到全新題目也能高分,證明不是只靠背題庫。不過,遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題,無法完全防堵 AI 作弊,還是得有嚴格監考和安全措施,才能確保考試公平。 相關文章 PubMed DOI 推理

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4 在診斷和處理常見手部、手腕創傷時,表現和整形外科住院醫師差不多,甚至在急診處置上更優秀。AI 有潛力成為急診室醫師的好幫手,但還是建議當作輔助工具,不能完全取代專業醫師的判斷。 相關文章 PubMed DOI 推理

這項研究比較四種大型語言模型在回答兒童氣喘問題時的表現,結果 GPT-4.0 最優,YouChat 最差,GPT-3.5 和 GPT-4.0 都比其他兩款好,但兩者差異不大。雖然這些模型能提供準確醫療資訊,醫師還是要批判性判斷,不能全然相信。未來隨技術進步,這些模型有望成為可靠的醫療工具。 相關文章 PubMed DOI 推理

美國現行法律無法有效處理生成式AI帶來的隱私、公平和福祉等風險,對AI公司責任的規範也不夠明確。作者建議建立新的「負責任AI法律框架」,納入基本價值觀、訂定安全標準,並針對AI特性設計專屬責任規則,以更主動地保障民眾權益。 相關文章 PubMed DOI 推理

這項研究發現,中國的生成式AI模型 Qwen-2.5 在回答眼科問題時,不論用英文還是阿拉伯文,表現都比 DeepSeek-R1 和 ChatGPT-40 更好。所有AI都展現出不錯的多語言能力,顛覆了AI只偏好英文的看法。中國AI在醫療諮詢領域已經能和 ChatGPT-40 一較高下,甚至更勝一籌。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4 在基礎統計分析上表現接近 SPSS,但在進階統計(如 MANOVA)會出錯;而 ChatGPT o3-mini 在相關分析和多變量檢定時,結果常不準確或誇大。整體來說,AI 工具雖有潛力,但目前還無法完全取代傳統統計軟體,特別是在複雜分析上。 相關文章 PubMed DOI 推理

這項研究發現,Claude 3.5 Sonnet 在產生放射科參考文獻時最準確,正確率高達 80.8%,捏造比例僅 3.1%,明顯勝過其他模型。相較之下,ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低,捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說,Claude 3.5 Sonnet 學術可靠度高,其他模型則有誤導風險,引用功能還需加強。 相關文章 PubMed DOI 推理

大型語言模型正帶動材料科學革新,讓自動化材料發現成真,像是資料擷取、性質預測都更有效率。不過,目前還有專業知識整合不夠、資源消耗大等問題。未來要加強LLM的適應性、效率和可信度,才能讓這些技術在實際應用上更可靠、更公平。 相關文章 PubMed DOI 推理