原始文章

這項研究評估了醫療領域大型語言模型(LLMs)在遵循MI-CLEAR-LLM檢查表的表現,旨在提升報告的透明度與可重複性。透過系統性搜尋PubMed,找到159篇2022年11月到2024年6月間發表的相關文章。 主要發現包括: - 100%報告LLM名稱,96.9%報告版本,91.8%報告製造商。 - 54.1%報告訓練數據截止日期,6.3%記錄網路資訊訪問。 - 15.1%清楚記錄隨機性管理。 - 49.1%提供提示措辭,34.0%討論提示結構。 - 13.2%報告測試數據獨立性,56.6%提供網路數據網址。 總體而言,雖然基本識別報告良好,但隨機性、提示細節及測試數據獨立性等關鍵方面仍需加強。改善遵循檢查表可提升未來研究的透明度與可靠性。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在醫療保健的應用越來越普遍,這讓標準化報告指導方針變得更重要。TRIPOD-LLM框架是TRIPOD加上人工智慧聲明的延伸,專門針對LLMs在生物醫學中的挑戰,提供19個主要項目和50個子項目的檢查清單,涵蓋報告的各個部分。 這個框架採用模組化設計,適用於不同研究和任務,並透過專家共識制定,強調透明度和人類監督。此外,還有一個互動網站幫助使用者生成報告PDF。TRIPOD-LLM會隨著領域進展而調整,目的是提升LLM在醫療研究中的質量和臨床相關性。 PubMed DOI

大型語言模型(LLMs)在臨床實踐中有潛力提升病人教育與賦權,提供更個人化的醫療服務。然而,目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究,主要集中於GPT-3.5和GPT-4,應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制,包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

這項系統性回顧分析了137篇經過同行評審的研究,探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示,研究報告標準差異大,主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防,但幾乎全數(99.3%)使用的都是無法訪問的封閉源碼大型語言模型,且對其特徵描述不足。此外,多數研究未提及提示工程,只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準,建議開發聊天機器人評估報告工具(CHART),以提升臨床評估與整合的效果。 PubMed DOI

這篇文章探討大型語言模型(LLMs)在醫療保健的應用,透過文獻計量分析,篩選出371篇相關期刊文章。結果顯示,LLMs的研究數量在美國、義大利和德國等發達國家顯著增加,並展現出強大的合作關係。LLMs被應用於醫學教育、診斷、治療等領域,但也引發對倫理影響和風險的擔憂,如數據偏見和透明度問題。為了促進LLMs的可靠使用,需建立責任指導方針和監管框架,確保數據的證據基礎。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

本研究探討大型語言模型(LLMs)在肌肉骨骼醫學的應用,並評估相關研究的質量。透過系統文獻回顧,分析了2022至2024年間的114項研究,主要集中在病人問題回答、診斷管理、骨科檢查等五大領域。大部分研究使用ChatGPT 3.5,方法學上存在透明度不足的問題。研究指出,雖然LLMs在醫療上有潛力,但目前的研究仍需改進,並強調建立指導方針以促進有效應用。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

這篇回顧發現,大型語言模型(LLMs)在個人化醫療診斷上越來越常被應用,能提升診斷準確度並協助量身打造治療。不過,資料隱私、模型解釋性和可靠性還有待加強,未來需持續研究和建立相關保障,才能安心用在臨床上。 PubMed DOI

這篇綜述分析270篇文獻,發現現有大型語言模型(如GPT-4)雖然能協助醫師處理多種臨床任務,但沒有單一模型能全面勝任所有需求,專業任務還需客製化。多數先進模型又是封閉原始碼,造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引,幫助醫師選擇合適的LLM。 PubMed DOI