LLM 相關三個月內文章 / 第 121 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究探討了兩種大型語言模型(LLMs)在胃腸科臨床實踐中的應用,分別是自訂的GPT模型和傳統的GPT-4o。研究發現,自訂模型在15個臨床問題中正確回答了8個,而研究員則回答了10個。傳統的GPT-4o表現最佳,正確率達14/15。雖然兩種模型的表現略低於專家醫生,但顯示出在病人諮詢等專業任務中的潛力。研究強調了RAG技術的重要性及臨床醫師監督的必要性。 相關文章 PubMed DOI

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 相關文章 PubMed DOI

這項研究探討了多模態大型語言模型(LLMs),特別是GPT-4o和Claude Sonnet 3.5,如何結合文本與視覺資訊進行醫療診斷。研究在120個臨床案例中進行測試,結果顯示在只有文本的情況下,GPT-4o的準確率為70.8%,遠超醫生的39.5%。當加入圖片時,所有參與者的表現都有提升,尤其是醫生的準確率增幅最明顯。GPT-4o在有圖片的情況下達到84.5%,而醫生則為78.8%。這顯示LLMs在視覺數據處理上仍需加強,以達到人類醫生的表現。 相關文章 PubMed DOI

這篇論文探討將大型語言模型(LLMs)整合進基因改進(GI)框架的可能性,並基於先前的研究,結合Gin Java GI工具包與OpenAI LLMs,生成JCodec工具的程式碼編輯。研究評估了三種不同的LLMs和提示,涵蓋五個真實軟體專案。結果顯示,LLMs生成的編輯雖然數量較少,但成功編譯和通過測試的機率較高,OpenAI模型達77%的成功率。簡單提示的效果優於複雜提示。質性分析指出LLM編輯的常見失敗點,顯示LLMs在GI搜尋過程中有潛力,但仍需克服有效性挑戰。 相關文章 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ERNIE Bot 和 ChatGPT,在回答肝癌介入放射學問題的有效性,特別是針對經動脈化療栓塞(TACE)和肝動脈灌注化療(HAIC)。共設計38個問題,由10位專業人士評估兩者的回答。結果顯示,ERNIE Bot 在中文環境中表現較佳,而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊,但也指出兩者都需人工審查以確保資訊可靠性。 相關文章 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 相關文章 PubMed DOI

這項研究探討了ChatGPT對西班牙萊昂大學護理學生的影響,特別是在學習成果和學生感知方面。研究對象為98名護理學生,結果顯示使用ChatGPT的學生學業成績顯著提升,89.5%的學生感受到學習表現改善。女性學生對ChatGPT的幫助感受更強烈,顯示出性別差異。此外,使用ChatGPT與GPA之間有正相關。研究建議持續整合人工智慧工具,以提升教育成果,幫助學生面對未來醫療挑戰。 相關文章 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 相關文章 PubMed DOI

這項研究探討大型語言模型(如GPT-4)如何提升術後病理報告的可讀性與理解度。研究分析了698份來自四家醫院的病理報告,重點在惡性腫瘤。透過創建詮釋性病理報告(IPRs)模板,發現使用IPRs後,病人的理解分數從5.23提升至7.98,醫生與病人溝通時間也減少超過70%。雖然未直接測量病人的治療結果,但改善的理解度和溝通效率可能對病人的參與度有正面影響,顯示人工智慧在醫療溝通中的潛力。 相關文章 PubMed DOI

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 相關文章 PubMed DOI