LLM 相關三個月內文章 / 第 74 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 相關文章 PubMed DOI

這項研究評估了具視覺功能的GPT-4V在眼科診斷玻璃體視網膜疾病的表現。研究在巴斯科姆·帕爾默眼科診所進行,分析了2010年至2023年的病人數據。結果顯示,GPT-4V在開放式問題中的診斷準確率為13.7%,而多選題為31.3%。該模型能準確識別後玻璃體脫離等病症,但在開放式問題的有效性有限,顯示出提供複雜醫療建議的挑戰。總體而言,GPT-4V在臨床護理中仍有潛力。 相關文章 PubMed DOI

這項研究開發了一個大型語言模型(LLM),能根據影像生成放射學印象,並評估其專業及語言表現。研究在上海總醫院進行,六位放射科醫生使用該模型並進行修正。LLM在20 GB醫學及一般文本數據上預訓練,並用1.5 GB數據微調,包含800份放射學報告。結果顯示,LLM的中位召回率為0.775,精確度0.84,F1分數0.772,表現良好。專家對其印象評價高,顯示其在放射學檢查中具專業性。 相關文章 PubMed DOI

這項研究評估了ChatGPT對COVID-19引起的嗅覺功能障礙的回應質量。使用30個相同問題,並在四種不同提示下詢問ChatGPT,結果顯示480個回應中有75.8%被評為「至少良好」。不同提示類型影響回應質量,針對八年級學生和患者的回應更易理解。總體來看,ChatGPT的答案大多準確,但表述方式會影響回應的質量和複雜性。研究認為,ChatGPT在患者教育上有潛力,但回應常過於複雜。 相關文章 PubMed DOI

這項研究評估了ChatGPT在識別腎臟科疾病的ICD-10代碼的準確性,使用了模擬案例。兩位腎臟科醫生創建了100個案例,測試了ChatGPT的3.5和4.0版本。結果顯示,3.5版本的準確率為91%,而4.0版本則高達99%。雖然3.5在第二輪下降至87%,但4.0仍維持99%。這顯示4.0在腎臟科編碼上有顯著優勢,並可能減輕醫療人員的負擔。不過,仍需注意小錯誤率,強調持續改進AI系統的重要性。 相關文章 PubMed DOI

這項研究探討了OpenAI的ChatGPT如何協助公共衛生工作者開發疾病傳播模型,以制定感染控制策略。透過案例研究,公共衛生工作者與ChatGPT合作,創建符合10天流行病學數據的數學模型,並進行代碼生成、精煉和除錯,估算基本繁殖數(Ro)和最終疫情規模。最終模型重現疫情曲線,Ro為4.19,最終疫情規模達98.3%。研究顯示,ChatGPT能加速模型開發,降低技術門檻,改善全球疫情應對能力,特別在資源有限的環境中。 相關文章 PubMed DOI

這份研究計畫書提出了一個系統化的方法,旨在透過觀察性研究來識別和評估能提升精英足球隊表現的運動科學及醫學介入措施。計畫強調優先考慮各種介入措施,如體能訓練、傷害預防等,以優化資源使用。針對以往系統性回顧的不足,計畫依據Cochrane Collaboration和PRISMA的指導方針,包含多個研究階段,並納入質量評估過程。詳細內容可在Open Science Framework查閱。 相關文章 PubMed DOI

這個專案旨在改善使用者在Twitter上接觸到經過驗證的新聞,解決極化和錯誤資訊問題。研究持續兩週,參與者達28,457人,使用28個由GPT-2創建的機器人,針對非政治主題的推文回應,分享相關新聞連結,並鼓勵關注新聞機構。結果顯示,與機器人互動的使用者更可能關注新聞帳號,尤其是女性機器人的回應更受歡迎。不過,這些效果主要限於已對政治感興趣的使用者,顯示在社交媒體上促進新聞參與的挑戰。 相關文章 PubMed DOI

將AI,特別是ChatGPT 4.0,整合進醫療流程中,尤其在撰寫出院摘要方面,顯示出提升醫療效率和品質的潛力。出院摘要是總結病人住院情況的重要文件,對精神科診所的分析顯示其需求多樣。本研究評估臨床人員與AI生成摘要的品質差異,並由四位主治醫師盲評。結果顯示,AI生成的摘要在效率、連貫性和資訊結構上優於人員撰寫,但仍需進一步研究以提升其準確性和可靠性。 相關文章 PubMed DOI

這項研究評估了ChatGPT模型(ChatGPT-3.5和GPT-4)在醫學、藥學、牙醫學和護理學的健康執照考試表現。分析了23項研究後發現,ChatGPT-3.5的準確率介於36%到77%,而GPT-4則在64.4%到100%之間,整體準確率為70.1%。GPT-4的表現優於ChatGPT-3.5,藥學的準確率最高,其次是醫學、牙醫學和護理學。研究指出問題集範圍狹窄及研究間變異性大,建議未來需進一步研究以擴展問題類型及提升AI模型。 相關文章 PubMed DOI