LLM 相關三個月內文章 / 第 104 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

大型語言模型(LLMs)如ChatGPT的發展,催生了能處理複雜任務的代理人,但這些代理人常面臨錯誤傳播和適應性不足的挑戰。為了解決這些問題,我們提出了「任務分解與代理生成」(TDAG)框架,將複雜任務拆解為小子任務,並分配給專門的子代理,以提升適應性。 此外,我們推出了ItineraryBench基準測試,專注於旅行規劃,評估代理人在記憶、規劃和工具使用等方面的能力。實驗結果顯示,TDAG在處理複雜任務時的表現顯著優於現有基準,展現出更強的適應性和情境意識。 相關文章 PubMed DOI

這篇研究指出大型語言模型(LLMs)在提升證據綜合效率方面的潛力,特別是在隨機對照試驗(RCTs)的數據提取上。作者針對LLMs開發了結構化提示,使用Claude(Claude-2),涵蓋了Cochrane手冊的六大領域共58項內容。他們在10個已發表的Cochrane評論RCT上測試,結果顯示數據提取準確率高達94.77%,各領域準確率介於77.97%到100%之間,且每個RCT的提取時間僅需88秒。這些結果顯示結構化提示能有效增強LLMs在系統性回顧中的應用,對證據綜合方法學是一大進步。 相關文章 PubMed DOI

最近的研究顯示,ChatGPT在全膝關節置換術(TKA)病人的術前教育中,能有效減少焦慮並提升滿意度。這項2023年的初步研究涉及60名病人,分為使用ChatGPT輔助的知情同意組和傳統醫生主導組。結果顯示,使用ChatGPT的病人在術前和術後焦慮分數顯著較低,且對住院經驗的滿意度更高。不過,對於抑鬱、膝關節功能或疼痛程度並未見顯著差異。未來仍需進一步研究以確認這些發現。 相關文章 PubMed DOI

這項系統性回顧分析了137篇經過同行評審的研究,探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示,研究報告標準差異大,主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防,但幾乎全數(99.3%)使用的都是無法訪問的封閉源碼大型語言模型,且對其特徵描述不足。此外,多數研究未提及提示工程,只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準,建議開發聊天機器人評估報告工具(CHART),以提升臨床評估與整合的效果。 相關文章 PubMed DOI

這項研究探討生成式人工智慧(AI)對藥學學生在客觀結構化臨床考試(OSCE)中的表現及焦慮影響。研究於2024年進行,涉及88名藥學博士學生,分為介入組和對照組。介入組使用AI工具生成學習材料,而對照組則接受傳統指導。結果顯示,兩組在考試成績和焦慮量表上並無顯著差異,AI工具未能提升學業表現或減少焦慮,但也沒有負面影響。研究建議需進一步探討AI對教育成果的長期影響。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs)在自動生成腫瘤影像檢查申請的臨床歷史的應用,資料來自207名接受CT掃描的癌症患者。研究顯示,GPT-4在提取關鍵腫瘤學參數方面表現優異,F1分數達0.983。LLM生成的歷史中,主要診斷、急性症狀及相關手術的出現頻率均高於原始歷史,且差異具統計意義。放射科醫生更偏好LLM生成的歷史,認為其提供更完整的解讀,降低傷害風險。總之,LLM能準確創建全面的腫瘤影像臨床歷史,受到醫生青睞。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs),像是ChatGPT,對英語作為外語(EFL)寫作教學的影響,特別是學習者的動機和接受度。研究對象為238名參與者,他們接受過使用LLMs進行商業英語寫作的訓練。透過偏最小平方結構方程模型(PLS-SEM),分析了動機、先前學習經驗和技術接受因素的關係。結果顯示,學習者的表現期望和社會影響顯著影響使用意圖,而動機則是影響使用LLMs的關鍵因素,強調了在EFL寫作教育中整合技術的重要性。 相關文章 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT-3.5、ChatGPT-4和Google Bard,在提供疾病流行病學數據的準確性。研究設計了21個問題,並將其提交給每個模型兩次。結果顯示,ChatGPT-4的準確率最高,達76.2%,其次是Bard的50.0%和ChatGPT-3.5的45.2%。雖然ChatGPT-4表現較佳,但三者皆存在不準確性和參考文獻問題,限制了它們在醫藥和學術界的實用性。 相關文章 PubMed DOI

這項研究顯示多模態大型語言模型,特別是ChatGPT-4,在評估安全指標和預測雷射視力矯正禁忌症方面的有效性。ChatGPT-4成功分析眼部數據,計算重要指標,並生成相關計算器代碼,表現超越傳統機器學習模型。其模態獨立的方法讓數據分析更高效、精確。雖然處理時間較長,但ChatGPT-4的強大表現顯示它在決策支持工具上的潛力,對於提升這個領域的安全性有重要貢獻。 相關文章 PubMed DOI

最近研究顯示,大型語言模型(LLMs),像是GPT-4o,越來越被視為可信的道德專家。在一項比較GPT-4o與《紐約時報》專欄The Ethicist建議的研究中,參與者認為AI的道德建議在可信度和深思熟慮程度上略勝於人類專家。此外,LLMs在提供道德理由方面也表現優於美國代表性樣本和知名倫理學家。這顯示人們可能會將LLMs視為人類道德指導的有用補充,因此在LLMs中編程倫理指導方針變得相當重要。 相關文章 PubMed DOI