LLM 相關三個月內文章 / 第 117 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了Claude、GPT和Gemini三種大型語言模型,從日文頭部CT報告中擷取顱內出血和顱骨骨折資訊的表現。三種模型表現都不錯,其中以Claude最準確。提示設計會影響模型表現,尤其是Gemini。常見錯誤多因報告內容模糊。整體來說,大型語言模型能有效結構化放射報告,但提示設計還需優化,也要在不同語言和實際情境下再測試。 相關文章 PubMed DOI 推理

這項研究發現,GPT-4o自動產生的膝關節MRI報告,不僅比GPT-4o-mini更準確,還能幾乎完美預測骨關節炎嚴重程度。骨科醫師也認為這些AI報告更好用、審閱更快。整體來說,GPT-4o有機會幫助醫師減少文書工作,提升臨床效率。 相關文章 PubMed DOI 推理

大型語言模型在醫療應用潛力大,但也帶來資安風險,像是病患隱私外洩、資料被竄改等。文章強調,開發和部署時一定要落實資安措施,才能保障病患資料安全。 相關文章 PubMed DOI 推理

**重點摘要:** 這項研究評估了GPT-4將婦科手術報告簡化給病人閱讀的能力。簡化後的報告有助於病人更了解手術過程和結果,但臨床專家也指出醫療正確性方面有疑慮。雖然AI生成的摘要在病人衛教上很有潛力,但在常規用於術後照護和出院系統前,仍需謹慎監督以確保醫療內容的精確性。 相關文章 PubMed DOI 推理

這篇論文介紹一套語音超市助理系統,評比四種語音辨識工具,發現 OpenAI 的 Whisper 準確度最高。團隊還開發多LLM聊天機器人架構,使用體驗比單一GPT-4 Turbo更好,能把回應連結到貨架位置,方便機器人導航。結果顯示,結合多個專業模型比只用一個大型模型更有效。 相關文章 PubMed DOI 推理

這項研究開發了一套用於提升核醫療診斷治療的聊天機器人架構,透過情境增強(RAG)讓大型語言模型能查找相關研究資料。測試五款主流LLM後發現,RAG能明顯提升答案品質,尤其CLAUDE 3 OPUS和GPT-4O表現最好。研究也提醒,目前問題範圍有限,未來應擴大題目多樣性並比較人類與AI的評分。 相關文章 PubMed DOI 推理

這篇研究評估ChatGPT-4o存取PubChem資料庫的能力,發現用提示語讓它產生程式碼來查詢最有效。作者公開所有提示語,並建議未來可用大型語言模型來提升生物醫學資料庫的存取效率。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4.0在酵素學考試的表現優於3.5版,但兩者分數都比學生低,尤其在實驗室分析題目上差距更明顯。雖然聊天機器人有助學習,但目前還無法取代人類專業知識。 相關文章 PubMed DOI 推理

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要,Claude在正確性和完整性上表現最好,但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查,目前還不適合單獨用於臨床摘要。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4o等AI模型在燒燙傷診斷上表現和有經驗的醫師差不多,報告也更好懂。不過,AI的治療建議常常太籠統,缺乏個人化。AI可以當輔助工具,但還是需要醫師把關,確保治療安全又符合每個病人的需求。 相關文章 PubMed DOI 推理