LLM 相關三個月內文章 / 第 4 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究探討了OpenAI的ChatGPT如何協助公共衛生工作者開發疾病傳播模型,以制定感染控制策略。透過案例研究,公共衛生工作者與ChatGPT合作,創建符合10天流行病學數據的數學模型,並進行代碼生成、精煉和除錯,估算基本繁殖數(Ro)和最終疫情規模。最終模型重現疫情曲線,Ro為4.19,最終疫情規模達98.3%。研究顯示,ChatGPT能加速模型開發,降低技術門檻,改善全球疫情應對能力,特別在資源有限的環境中。 相關文章 PubMed DOI

這份研究計畫書提出了一個系統化的方法,旨在透過觀察性研究來識別和評估能提升精英足球隊表現的運動科學及醫學介入措施。計畫強調優先考慮各種介入措施,如體能訓練、傷害預防等,以優化資源使用。針對以往系統性回顧的不足,計畫依據Cochrane Collaboration和PRISMA的指導方針,包含多個研究階段,並納入質量評估過程。詳細內容可在Open Science Framework查閱。 相關文章 PubMed DOI

這個專案旨在改善使用者在Twitter上接觸到經過驗證的新聞,解決極化和錯誤資訊問題。研究持續兩週,參與者達28,457人,使用28個由GPT-2創建的機器人,針對非政治主題的推文回應,分享相關新聞連結,並鼓勵關注新聞機構。結果顯示,與機器人互動的使用者更可能關注新聞帳號,尤其是女性機器人的回應更受歡迎。不過,這些效果主要限於已對政治感興趣的使用者,顯示在社交媒體上促進新聞參與的挑戰。 相關文章 PubMed DOI

將AI,特別是ChatGPT 4.0,整合進醫療流程中,尤其在撰寫出院摘要方面,顯示出提升醫療效率和品質的潛力。出院摘要是總結病人住院情況的重要文件,對精神科診所的分析顯示其需求多樣。本研究評估臨床人員與AI生成摘要的品質差異,並由四位主治醫師盲評。結果顯示,AI生成的摘要在效率、連貫性和資訊結構上優於人員撰寫,但仍需進一步研究以提升其準確性和可靠性。 相關文章 PubMed DOI

這項研究評估了ChatGPT模型(ChatGPT-3.5和GPT-4)在醫學、藥學、牙醫學和護理學的健康執照考試表現。分析了23項研究後發現,ChatGPT-3.5的準確率介於36%到77%,而GPT-4則在64.4%到100%之間,整體準確率為70.1%。GPT-4的表現優於ChatGPT-3.5,藥學的準確率最高,其次是醫學、牙醫學和護理學。研究指出問題集範圍狹窄及研究間變異性大,建議未來需進一步研究以擴展問題類型及提升AI模型。 相關文章 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Claude—對鼻整形手術常見問題的回答。七位經驗豐富的整形外科醫生根據準確性、質量、完整性等指標進行評分。結果顯示,ChatGPT在準確性和整體質量上表現較佳,但完整性不如Gemini和Claude。三者的回應普遍被評為中立且不完整,醫學術語使用普遍,且可讀性達大學程度。研究強調聊天機器人生成的醫療資訊需謹慎檢查,但仍具提升醫療教育的潛力。 相關文章 PubMed DOI

這項研究提出了一種新方法,結合大型語言模型(LLMs)與電腦輔助診斷(CAD)網絡,提升胸部X光片的醫學影像分析。雖然LLMs在自然語言處理上表現優異,但在醫學影像上通常不佳。這個框架利用LLMs的優勢,改善CAD系統的診斷準確性和報告生成,讓報告品質更高。使用ChatGPT後,診斷表現提升了16.42個百分點,GPT-3則在F1-score上提高了15.00個百分點。這種創新方法有潛力改變臨床決策過程,並改善病患互動。 相關文章 PubMed DOI

兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。 相關文章 PubMed DOI

這項研究評估了GPT-4在心理健康管理認證測試中的表現,重點在於調整提示是否能提升結果。研究者使用3 × 2的因子設計,測試600道多選題,並比較了簡單提示與調整提示的效果。結果顯示,GPT-4在不同難度級別的得分相近,且兩種提示條件之間沒有顯著差異。雖然調整提示未顯著提升表現,但能減少錯誤並改善輸出組織。該研究已在UMIN-CTR註冊。 相關文章 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 相關文章 PubMed DOI