LLM 相關三個月內文章 / 第 124 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究開發了一個微調過的大型語言模型,能自動從Reddit家暴相關社群的女性貼文中,辨識她們的資訊需求。研究團隊用真實和AI生成的資料解決樣本不足和類別不均問題,並將貼文分成8類(如法律、安置、庇護所等)。這個模型在準確率和F1-score都比GPT-3.5、GPT-4等基準模型好,也比人工判讀快很多,有助醫療人員更快掌握家暴倖存者需求,提供即時協助。 相關文章 PubMed DOI 推理

**重點整理:** OpenAI-o1 具備更優秀的推理能力,在 15 題日本醫師執照考試題目中表現優於 GPT-4(正確率 100% 對 80%;辨識禁忌選項的正確率 87% 對 73%),但由於樣本數較少,這些結果僅供初步參考。 相關文章 PubMed DOI 推理

這項研究發現,基本版 ChatGPT 在生物醫學文獻搜尋的表現不如 Google 和 PubMed,即使加上插件或自訂功能也還有不少限制。每種搜尋情境都有不同挑戰,顯示對話式 AI 雖有潛力,但目前還不夠成熟,未來在科學研究應用前需要更全面的評估。 相關文章 PubMed DOI 推理

這篇論文提出「Noisy Report Refinement(NRR)」新任務,專注於把雜亂的線上文本轉換成乾淨的放射科報告。作者用大型語言模型結合自我批判和選擇策略來提升報告品質,並推出專屬的新基準NRRBench。實驗證明,他們的方法在報告的乾淨度、實用性和正確性上都比現有方法更好。 相關文章 PubMed DOI 推理

小兒肺炎診斷困難,影響幼童生命。P2Med-MLLM是一款結合文字和醫學影像分析的AI模型,能協助醫師更快更準確診斷與治療。實測結果顯示,這個模型比現有方法更有效率,有助於提升醫療品質並拯救更多孩子的生命。 相關文章 PubMed DOI 推理

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄,發現模型越大,資料越完整,但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布,種族偏見則不一致,部分模型高估White或Black患者,低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性,並呼籲建立更完善的偏見評估標準。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT在判斷癲癇發作症狀和定位藥物難治型局部癲癇的致癲區時,表現不輸給癲癇專科醫師,尤其在額葉和顳葉的預測上更是突出。無論用公開資料還是台灣醫院的病例,ChatGPT的表現都很穩定,淨正向推論率也和專家差不多。未來隨著技術進步,ChatGPT有望成為協助癲癇手術規劃的好幫手。 相關文章 PubMed DOI 推理

這份研究比較了ChatGPT-4、Copilot和Gemini三款大型語言模型在美國外科住院醫師考題上的表現。結果顯示,ChatGPT和Copilot的正確率都接近八成,表現差不多;但Gemini的正確率只有五成多,尤其在定義題和臨床案例題上更弱。總結來說,Gemini的準確度明顯落後。 相關文章 PubMed DOI 推理

AI在婦產科醫學應用越來越廣,像機器學習和ChatGPT能提升診斷和治療效率,也幫助循證醫療。不過,大家還是會擔心AI的準確度和可靠性。AI應該當作醫師的輔助工具,不能完全取代臨床判斷。未來會持續強化個人化醫療,AI應用也會越來越普及,幫助改善病患照護品質。 相關文章 PubMed DOI 推理

這項研究發現,免費版GPT-3.5和Gemini在回答大一醫學選擇題時,常出現重複答題模式,且比學生更容易被干擾選項誤導,反覆犯同樣錯誤。整體來說,這些AI在技術性題目上的表現都不如受訓學生或專家,顯示醫學評量還是需要人類監督,也讓人質疑AI理解情境的能力。 相關文章 PubMed DOI 推理