LLM 相關三個月內文章 / 第 75 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了三款AI聊天機器人—ChatGPT、Gemini和Claude—對鼻整形手術常見問題的回答。七位經驗豐富的整形外科醫生根據準確性、質量、完整性等指標進行評分。結果顯示,ChatGPT在準確性和整體質量上表現較佳,但完整性不如Gemini和Claude。三者的回應普遍被評為中立且不完整,醫學術語使用普遍,且可讀性達大學程度。研究強調聊天機器人生成的醫療資訊需謹慎檢查,但仍具提升醫療教育的潛力。 相關文章 PubMed DOI

這項研究提出了一種新方法,結合大型語言模型(LLMs)與電腦輔助診斷(CAD)網絡,提升胸部X光片的醫學影像分析。雖然LLMs在自然語言處理上表現優異,但在醫學影像上通常不佳。這個框架利用LLMs的優勢,改善CAD系統的診斷準確性和報告生成,讓報告品質更高。使用ChatGPT後,診斷表現提升了16.42個百分點,GPT-3則在F1-score上提高了15.00個百分點。這種創新方法有潛力改變臨床決策過程,並改善病患互動。 相關文章 PubMed DOI

兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。 相關文章 PubMed DOI

這項研究評估了GPT-4在心理健康管理認證測試中的表現,重點在於調整提示是否能提升結果。研究者使用3 × 2的因子設計,測試600道多選題,並比較了簡單提示與調整提示的效果。結果顯示,GPT-4在不同難度級別的得分相近,且兩種提示條件之間沒有顯著差異。雖然調整提示未顯著提升表現,但能減少錯誤並改善輸出組織。該研究已在UMIN-CTR註冊。 相關文章 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 相關文章 PubMed DOI

這項研究評估了ChatGPT在麻醉學和疼痛醫學的問題解決能力,特別是在韓語環境中,並比較了GPT-4、GPT-3.5和CLOVA X的表現。分析了398道問題後發現,GPT-4的準確率(67.8%)顯著高於GPT-3.5(37.2%)和CLOVA X(36.7%),而後兩者之間無顯著差異。此外,GPT-4在英語翻譯問題上的表現(75.4%)也優於韓語問題。研究強調了AI在醫學教育的潛力,但也提醒在非英語環境中應用時需謹慎,並建議進一步改進。 相關文章 PubMed DOI

這項研究探討簡短書面回應的情感與抑鬱症狀變化的關係,招募了467名參與者,並使用PHQ-9評估抑鬱症狀。研究發現,人類評審和大型語言模型(如ChatGPT)的情感分析能有效預測三週內的抑鬱症狀變化,而語言查詢工具(LIWC)則無法。研究還指出,語言情感與當前情緒有關,但能獨立預測抑鬱症狀變化,顯示結合AI工具的情感分析可作為預測精神症狀的有效方法。 相關文章 PubMed DOI

這項研究強調在醫療照護中評估健康社會決定因素(SDoH)的重要性,以改善病患照護並縮小健康差距。研究探討了電子健康紀錄(EHRs)中SDoH數據不足的挑戰,主要因為缺乏標準化的診斷代碼。研究團隊使用大型語言模型(如BERT和RoBERTa)來分類無家可歸、食物不安全和家庭暴力等SDoH概念,並創建合成訓練數據集。結果顯示,這些模型能有效提取SDoH資訊,幫助醫療提供者識別高風險病患,進而實施針對性干預,支持減少健康差距的努力。 相關文章 PubMed DOI

這段文字探討了DracoGPT的開發,這是一種從大型語言模型中提取視覺設計偏好的方法。主要擔心的是,如果這些模型無法準確編碼設計知識,建議可能不可靠。DracoGPT有兩個流程:DracoGPT-Rank和DracoGPT-Recommend,模擬如何對視覺編碼進行排名或推薦。研究顯示,DracoGPT能模擬LLM的偏好,但排名和推薦之間的一致性中等,且與人類實驗的指導方針有顯著差異。未來可增強知識庫,以捕捉更廣泛的偏好,提供更可靠的視覺設計方案。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs)從條形圖生成類似人類的重點摘要能力,重點在於視覺化設計的影響。研究包含三個實驗,使用四種條形圖佈局:垂直並排、水平並排、重疊和堆疊。 第一個實驗測試四個LLM在不同配置下的表現,結果顯示即使是先進的LLM也難以產生多樣且準確的解讀。第二個實驗發現LLM的重點摘要常與人類的比較類型不一致。第三個實驗則顯示圖表的上下文和數據影響LLM的表現,顯示出不一致性。 總體而言,研究強調了LLM在模仿人類數據解讀方面的限制,並指出未來改進的方向。 相關文章 PubMed DOI