LLM 相關三個月內文章 / 第 5 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了ChatGPT在麻醉學和疼痛醫學的問題解決能力,特別是在韓語環境中,並比較了GPT-4、GPT-3.5和CLOVA X的表現。分析了398道問題後發現,GPT-4的準確率(67.8%)顯著高於GPT-3.5(37.2%)和CLOVA X(36.7%),而後兩者之間無顯著差異。此外,GPT-4在英語翻譯問題上的表現(75.4%)也優於韓語問題。研究強調了AI在醫學教育的潛力,但也提醒在非英語環境中應用時需謹慎,並建議進一步改進。 相關文章 PubMed DOI

這項研究探討簡短書面回應的情感與抑鬱症狀變化的關係,招募了467名參與者,並使用PHQ-9評估抑鬱症狀。研究發現,人類評審和大型語言模型(如ChatGPT)的情感分析能有效預測三週內的抑鬱症狀變化,而語言查詢工具(LIWC)則無法。研究還指出,語言情感與當前情緒有關,但能獨立預測抑鬱症狀變化,顯示結合AI工具的情感分析可作為預測精神症狀的有效方法。 相關文章 PubMed DOI

這項研究強調在醫療照護中評估健康社會決定因素(SDoH)的重要性,以改善病患照護並縮小健康差距。研究探討了電子健康紀錄(EHRs)中SDoH數據不足的挑戰,主要因為缺乏標準化的診斷代碼。研究團隊使用大型語言模型(如BERT和RoBERTa)來分類無家可歸、食物不安全和家庭暴力等SDoH概念,並創建合成訓練數據集。結果顯示,這些模型能有效提取SDoH資訊,幫助醫療提供者識別高風險病患,進而實施針對性干預,支持減少健康差距的努力。 相關文章 PubMed DOI

這段文字探討了DracoGPT的開發,這是一種從大型語言模型中提取視覺設計偏好的方法。主要擔心的是,如果這些模型無法準確編碼設計知識,建議可能不可靠。DracoGPT有兩個流程:DracoGPT-Rank和DracoGPT-Recommend,模擬如何對視覺編碼進行排名或推薦。研究顯示,DracoGPT能模擬LLM的偏好,但排名和推薦之間的一致性中等,且與人類實驗的指導方針有顯著差異。未來可增強知識庫,以捕捉更廣泛的偏好,提供更可靠的視覺設計方案。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs)從條形圖生成類似人類的重點摘要能力,重點在於視覺化設計的影響。研究包含三個實驗,使用四種條形圖佈局:垂直並排、水平並排、重疊和堆疊。 第一個實驗測試四個LLM在不同配置下的表現,結果顯示即使是先進的LLM也難以產生多樣且準確的解讀。第二個實驗發現LLM的重點摘要常與人類的比較類型不一致。第三個實驗則顯示圖表的上下文和數據影響LLM的表現,顯示出不一致性。 總體而言,研究強調了LLM在模仿人類數據解讀方面的限制,並指出未來改進的方向。 相關文章 PubMed DOI

這篇論文介紹了AdversaFlow,一個視覺分析系統,旨在提升大型語言模型(LLMs)對抗攻擊的安全性。它探討了LLMs可能生成誤導性資訊及促進不道德活動的問題。傳統的AI漏洞識別方法過於依賴專業知識,限制了效果。 AdversaFlow透過人機協作和對抗性訓練來增強識別能力,並具備創新的視覺化功能,幫助專家理解對抗動態。論文中提供了定量評估和案例研究,顯示AdversaFlow能有效提升LLM的安全性,特別在社交媒體監管等應用上,能幫助檢測和減輕有害內容。 相關文章 PubMed DOI

這項研究探討了大型語言模型(如GPT-4和Gemini)在根據病人的種族/族裔和性別建議鴉片類藥物處方的表現。研究分析了480個來自MIMIC-IV Note數據集的真實病人案例,發現曲馬多和羥考酮是最常被推薦的藥物。Gemini較GPT-4更可能將疼痛評為「嚴重」,並較晚建議使用鴉片類藥物。重要的是,這些模型的建議不受種族/族裔或性別影響,顯示出在疼痛管理上無偏見,可能成為醫生的有用工具。 相關文章 PubMed DOI

看起來你提到的討論是基於Berger (2024)和Carrillo等人 (2024) 在社會科學中關於機器輔助假設生成的觀點。如果你想深入探討他們評論中提出的具體問題或主題,或者需要幫助進一步發展你的討論,請提供更多細節或背景資訊! 相關文章 PubMed DOI

Banker等人(2024)的研究探討了利用GPT-3和GPT-4生成社會心理學的新假設,但指出這種方法忽略了人類研究者和大型語言模型的局限性,以及研究者的個人價值觀和現有文獻的重要性。他們提出了一個以人為中心的工作流程,強調研究者與GPT-4的迭代合作,旨在透過認識和利用每位研究者的獨特貢獻來增強假設生成過程,而非取代研究者。 相關文章 PubMed DOI

這項研究探討大型自然語言模型如GPT-3和GPT-4如何幫助社會心理學研究者生成新假設。由於該領域發現眾多,整合想法變得困難,可能會錯過重要聯繫。研究採用兩種方法:首先對GPT-3進行微調,使用數千篇社會心理學摘要,專家評分後發現其生成的假設在清晰度和創新性上與人類相似;其次不微調使用GPT-4,結果顯示其生成的假設在多個維度上評分更高。總體來看,這些模型能有效支持假設生成。 相關文章 PubMed DOI