原始文章

YouTube 是重要的醫療資訊來源,但許多影片內容不準確或有偏見。本研究探討大型語言模型(LLMs)評估醫療影片質量的能力。研究人員收集了專家評估過的影片,並讓二十個 LLMs 使用 DISCERN 工具進行評分。結果顯示,LLMs 的評分通常高於專家,且一致性範圍廣泛。加入評分指導方針後,模型表現有所改善。研究顯示某些 LLMs 能有效評估醫療影片質量,未來可作為獨立專家系統或增強傳統推薦系統,解決線上健康內容的質量問題。 PubMed DOI


站上相關主題文章列表

這項研究探討了深下腹皮瓣(DIEP)乳房重建的資訊質量,並比較了社交媒體平台(SMPs)與大型語言模型(LLMs)如ChatGPT和Google Bard的內容。分析了50個英語和西班牙語的視頻,結果顯示LLMs的資訊質量明顯較高,ChatGPT和Google Bard的平均DISCERN分數分別為54和61.17,屬於良好質量。而SMPs的得分則低得多,顯示38%的視頻由非醫療作者製作,突顯了可靠資訊的缺口。研究強調學術整形外科醫生需提供高質量資訊以改善病患教育。 PubMed DOI

這項研究探討如何將大型語言模型(LLMs)整合進證據基礎醫學(EBM),以自動化任務如證據檢索和傳播,來提升臨床決策。研究比較了七個LLMs的表現,結果顯示這些模型在理解和總結方面表現優異,知識引導的提示也顯著提升了效果。不過,在命名實體識別和事實準確性上仍面臨挑戰,需要進一步研究和質量控制才能應用於臨床。研究結果和代碼已在GitHub上公開。 PubMed DOI

這篇回顧探討大型語言模型(LLMs)在病人教育和參與中的應用,分析了201項主要來自美國的研究,並提出六個關鍵主題,包括生成病人教育材料、解釋醫療資訊、提供生活方式建議等。研究顯示,LLMs能有效生成易懂的內容,改善病人與醫療提供者的溝通,但也存在可讀性、準確性及偏見等問題。未來需進一步研究以提升LLM的可靠性,並解決其在醫療應用中的倫理挑戰。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在醫療領域的評估,指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章,資料來自PubMed、Embase和MEDLINE。結果顯示,LLM的評估主要分為測試考試和醫療專業人員的評估,部分研究則結合兩者。大多數評估問題數量不超過100題,且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論,以提升LLM在醫療應用中的表現。 PubMed DOI

這篇系統性回顧探討大型語言模型(LLMs)在胃腸科及內視鏡的應用,強調其在提升診斷準確性、自動化文檔處理及改善專家教育和病人參與方面的潛力。回顧分析了21篇來自MEDLINE、Embase和Cochrane Central的研究,結果顯示5篇偏倚風險低,16篇中等風險。LLMs能有效傳播醫療資訊、協助諮詢及生成手術報告,但仍面臨數據隱私、準確性及跨學科合作等挑戰,需重視解決這些問題,以發揮其在胃腸內視鏡實務中的潛力。 PubMed DOI

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

腕管症候群(CTS)是一種常見病症,受到醫療界和大眾的重視。本研究分析了社交媒體平台上有關CTS的資訊質量,並與大型語言模型(LLMs)如ChatGPT和Google Bard的資訊進行比較。研究涵蓋80部YouTube和Instagram影片,發現LLMs提供的資訊質量顯著高於社交媒體影片。醫療專業人士創作的影片得分較高,但53.8%的影片由非醫療作者製作,顯示專業性不足。結論強調需增加醫療專業人士在社交媒體上的參與,以提升正確知識的傳播。 PubMed DOI

這篇文章探討大型語言模型(LLMs)在醫療保健的應用,透過文獻計量分析,篩選出371篇相關期刊文章。結果顯示,LLMs的研究數量在美國、義大利和德國等發達國家顯著增加,並展現出強大的合作關係。LLMs被應用於醫學教育、診斷、治療等領域,但也引發對倫理影響和風險的擔憂,如數據偏見和透明度問題。為了促進LLMs的可靠使用,需建立責任指導方針和監管框架,確保數據的證據基礎。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI