原始文章

這項研究評估了醫療領域大型語言模型(LLMs)在遵循MI-CLEAR-LLM檢查表的表現,旨在提升報告的透明度與可重複性。透過系統性搜尋PubMed,找到159篇2022年11月到2024年6月間發表的相關文章。 主要發現包括: - 100%報告LLM名稱,96.9%報告版本,91.8%報告製造商。 - 54.1%報告訓練數據截止日期,6.3%記錄網路資訊訪問。 - 15.1%清楚記錄隨機性管理。 - 49.1%提供提示措辭,34.0%討論提示結構。 - 13.2%報告測試數據獨立性,56.6%提供網路數據網址。 總體而言,雖然基本識別報告良好,但隨機性、提示細節及測試數據獨立性等關鍵方面仍需加強。改善遵循檢查表可提升未來研究的透明度與可靠性。 PubMed DOI


站上相關主題文章列表

這項元研究評估了放射學期刊中關於大型語言模型(LLMs)使用的政策。結果顯示,43.9%的期刊有相關政策,其中43.4%針對作者,29.6%針對審稿人,25.9%針對編輯。許多期刊討論了LLM的使用細節、名稱、驗證及角色,但僅少數提及其潛在影響。研究指出,LLM政策的存在與出版商有顯著關聯,並建議制定共享的報告指導方針,以提升科學寫作的質量與透明度,強調目前的探索仍需進一步發展。 PubMed DOI

這項研究系統性回顧了生成性大型語言模型(LLMs)在臨床環境,特別是電子健康紀錄(EHRs)的應用。儘管自然語言處理技術進步,LLMs在臨床實踐中的整合仍有限,面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻,發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性,以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估,以提升LLMs在醫療中的可靠性。總之,LLMs在病人護理上有潛力,但仍需克服重大障礙。 PubMed DOI

大型語言模型(LLMs)在醫療領域有潛力,但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧,發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷,行政任務則較少。大多數研究專注於問答任務,準確性是主要評估維度,但公平性和偏見等問題卻被忽略。未來應標準化評估指標,納入臨床數據,並擴展至更多任務和專科。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域的評估,指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章,資料來自PubMed、Embase和MEDLINE。結果顯示,LLM的評估主要分為測試考試和醫療專業人員的評估,部分研究則結合兩者。大多數評估問題數量不超過100題,且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論,以提升LLM在醫療應用中的表現。 PubMed DOI

大型語言模型(LLMs)在醫療保健的應用越來越普遍,這讓標準化報告指導方針變得更重要。TRIPOD-LLM框架是TRIPOD加上人工智慧聲明的延伸,專門針對LLMs在生物醫學中的挑戰,提供19個主要項目和50個子項目的檢查清單,涵蓋報告的各個部分。 這個框架採用模組化設計,適用於不同研究和任務,並透過專家共識制定,強調透明度和人類監督。此外,還有一個互動網站幫助使用者生成報告PDF。TRIPOD-LLM會隨著領域進展而調整,目的是提升LLM在醫療研究中的質量和臨床相關性。 PubMed DOI

大型語言模型(LLMs)在臨床實踐中有潛力提升病人教育與賦權,提供更個人化的醫療服務。然而,目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究,主要集中於GPT-3.5和GPT-4,應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制,包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

這項系統性回顧分析了137篇經過同行評審的研究,探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示,研究報告標準差異大,主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防,但幾乎全數(99.3%)使用的都是無法訪問的封閉源碼大型語言模型,且對其特徵描述不足。此外,多數研究未提及提示工程,只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準,建議開發聊天機器人評估報告工具(CHART),以提升臨床評估與整合的效果。 PubMed DOI

這篇文章探討大型語言模型(LLMs)在醫療保健的應用,透過文獻計量分析,篩選出371篇相關期刊文章。結果顯示,LLMs的研究數量在美國、義大利和德國等發達國家顯著增加,並展現出強大的合作關係。LLMs被應用於醫學教育、診斷、治療等領域,但也引發對倫理影響和風險的擔憂,如數據偏見和透明度問題。為了促進LLMs的可靠使用,需建立責任指導方針和監管框架,確保數據的證據基礎。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI