LLM 相關三個月內文章 / 第 45 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

多模態大型語言模型(MLLMs)的進展正在改變計算機視覺,尤其是多功能基礎模型的開發。不過,對於低層次視覺感知和理解的評估仍待深入探討。為此,我們建立了基準設置,模擬人類對低層次視覺的語言反應,包含低層次視覺感知(A1)和描述(A2)兩大任務,並引入LLVisionQA+和LLDescribe+數據集。此外,我們還評估了MLLMs預測質量分數的能力(A3)。結果顯示,雖然多數模型在單一圖像上表現不錯,但只有GPT-4V在成對比較中更接近人類表現。我們希望這些基準能促進未來的研究。數據集可在 https://github.com/Q-Future/Q-Bench 獲得。 相關文章 PubMed DOI

這份調查報告全面回顧了深度神經網絡的剪枝技術,針對資源有限環境中模型壓縮的需求進行探討。研究分為四大領域:通用/特定加速、剪枝時機、剪枝方法,以及剪枝與其他壓縮技術的整合。報告還詳細比較了各種剪枝設置,並探討了大型語言模型和視覺變壓器的剪枝等新興主題。此外,提供了選擇剪枝方法的建議及未來研究方向。作者們還建立了一個資料庫,定期更新與剪枝相關的最新進展,網址為 https://github.com/hrcheng1066/awesome-pruning。 相關文章 PubMed DOI

這項研究探討如何在管理第五掌骨下端骨折時,整合ChatGPT-4 plus,並將其治療建議與整形外科醫生及專家小組的意見進行比較。結果顯示,各組的管理計畫中等可靠(組內相關係數為0.61)。影響手術決策的關鍵因素包括臨床上出現的剪刀現象、伸展缺損及影像學證據顯示的關節內延伸。研究結果顯示,人工智慧能提升臨床診斷與治療決策的準確性。 相關文章 PubMed DOI

這項研究探討了提示工程對大型語言模型(LLM),特別是GPT-4,在醫療提供者回應病人詢問時的影響。研究持續8個月,參與者有27位醫療提供者,主要評估LLM生成訊息的使用情況及提供者的情感變化。 結果顯示,7605條訊息中僅17.5%被使用,負面情感顯著減少,但整體使用量卻下降。隨著護士的加入,使用量提升至35.8%。雖然提示工程改善了內容質量,但整合LLM進工作流程仍面臨挑戰,未來需更注重人因因素以提升可用性和有效性。 相關文章 PubMed DOI

這篇文章探討了大型語言模型在職業醫學中的潛在優勢與挑戰。這些模型能協助醫療決策、病人篩檢、文件撰寫及醫護人員訓練,可能帶來成本降低和效率提升,還能減少人為錯誤。不過,它們也有準確性不足和提供錯誤建議的風險。此外,倫理問題和缺乏監管也增加了挑戰。文章建議,儘管未來有望改善,仍需進一步研究這些模型在職業醫學中的應用。 相關文章 PubMed DOI

在健康研究中,報告標準至關重要,能提升準確性與透明度。隨著赫爾辛基宣言、CONSORT、STROBE 和 PRISMA 等倡議的推動,研究溝通變得更全面。人工智慧(AI)如 ChatGPT 的出現,改變了學術寫作,提升了文章質量,但也帶來了錯誤與透明度的擔憂。為解決這些問題,像 CONSORT-AI 和 SPIRIT-AI 等新指導方針應運而生,強調在研究中負責任地使用 AI 技術,並需跨學科合作與倫理評估,以確保科學出版的開放性與可重複性。 相關文章 PubMed DOI

這項研究評估了ChatGPT在回答骨科多選題的準確性及其作為醫學生學習輔助工具的效果。結果顯示,ChatGPT-4.0的準確率達70.60%。在129名醫學生中,經過兩週的介入,使用ChatGPT的組別在骨科測試中表現顯著優於對照組,特別是在A1、A2和A3/4的題目上。此外,ChatGPT組在學期末的外科和婦產科考試中也表現更佳。研究結果顯示,將ChatGPT融入醫學教育能提升學習成效,並已在中國臨床試驗註冊中心註冊。 相關文章 PubMed DOI

這項研究系統性評估了GPT-3.5和GPT-4在心理科學領域的四個關鍵能力。首先,作為研究圖書館員,GPT-4在生成虛構參考文獻的準確性上明顯優於GPT-3.5。其次,GPT-4在識別研究倫理問題方面表現出色,成功糾正了大部分明顯和微妙的違規。第三,兩者都能重現文化偏見,顯示出數據生成的潛力。最後,兩者在預測新數據方面的能力有限。總體來看,雖然GPT模型有所進步,但在生成新見解和可靠參考文獻上仍有待加強。 相關文章 PubMed DOI

這項研究探討了GPT-4在識別日本放射學報告中胰臟癌的TNM分級的效果。研究分析了2020年4月至2022年6月的100份CT掃描報告,結果顯示GPT-4在T分類的準確率為73%,N分類91%,M分類93%。與兩位經驗豐富的放射科醫生的協議程度分別為T的0.45、N的0.79和M的0.83。雖然GPT-4對TNM分級有一定了解,但在這個特定情境下的表現仍被認為不足。 相關文章 PubMed DOI

這項研究評估了ChatGPT在回應泌尿科病人訊息的有效性,結果顯示其回應中有47%適合用於病人溝通。分析指出,對於簡單問題,56%的回應被認為可接受;但對於較複雜的問題,只有34%被認可。評估標準包括準確性、完整性、有幫助性、可理解性及潛在傷害。總體來看,雖然ChatGPT能協助管理病人訊息,減輕醫療團隊負擔,但表現會因問題複雜度而異。隨著技術進步,預期其回應品質會進一步提升。 相關文章 PubMed DOI