原始文章

YouTube 是重要的醫療資訊來源,但許多影片內容不準確或有偏見。本研究探討大型語言模型(LLMs)評估醫療影片質量的能力。研究人員收集了專家評估過的影片,並讓二十個 LLMs 使用 DISCERN 工具進行評分。結果顯示,LLMs 的評分通常高於專家,且一致性範圍廣泛。加入評分指導方針後,模型表現有所改善。研究顯示某些 LLMs 能有效評估醫療影片質量,未來可作為獨立專家系統或增強傳統推薦系統,解決線上健康內容的質量問題。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 PubMed DOI

這篇文章探討大型語言模型(LLMs)在醫療保健的應用,透過文獻計量分析,篩選出371篇相關期刊文章。結果顯示,LLMs的研究數量在美國、義大利和德國等發達國家顯著增加,並展現出強大的合作關係。LLMs被應用於醫學教育、診斷、治療等領域,但也引發對倫理影響和風險的擔憂,如數據偏見和透明度問題。為了促進LLMs的可靠使用,需建立責任指導方針和監管框架,確保數據的證據基礎。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分析線上護理論壇專家文本的應用,目的是提升主題分析的效率。研究過程包括數據收集、主題建模、人為分類及LLMs的主題詮釋。結果顯示,人為詮釋與LLMs生成的詮釋有80%的相似度,且在三分之二的主題上達成共識。LLMs能識別子主題並提供額外見解,增強分析深度,但在質性研究中整合這些模型仍需謹慎。總體而言,LLMs在自動化質性數據詮釋方面展現潛力。 PubMed DOI

這項研究評估了YouTube上與胃腸內視鏡相關的影片質量,發現整體表現不佳,特別是患者製作的影片。膠囊內視鏡的影片質量更是低於胃鏡和結腸鏡。研究還探討大型語言模型(LLMs)在影片內容總結的應用,雖然摘要準確,但可讀性不足。結果顯示,對於這類影片內容需要更好的規範與改進,並提升LLMs的總結能力。 PubMed DOI

隨著醫學文獻快速增長,使用大型語言模型(LLMs)來創建臨床評估的興趣也在上升。不過,對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估,發現LLMs雖然能快速產出內容,但通常缺乏深度、參考文獻少且邏輯不夠一致。此外,LLMs常引用不知名期刊,且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足,顯示需要改進檢測方法和建立更強的倫理框架,以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

大型語言模型(LLMs)大幅提升了臨床自然語言生成(NLG)的能力,為處理醫療文本提供了新方法。不過,將這些模型應用於醫療環境前,必須進行全面評估,以確保其可靠性與有效性。我們的回顧探討了現有NLG在醫療領域的評估指標,並提出一種未來的方法,旨在減少專家評估的限制,平衡資源效率與人類判斷的一致性,確保生成內容符合臨床高標準。 PubMed DOI

這項研究開發了 SourceCheckup 工具,能自動檢查 GPT-4o 等大型語言模型在健康問題回答時,所引用的資料是否真的可靠。結果顯示,七種 LLM 中有 50–90% 的回答其實沒被來源完整支持,就算是 GPT-4o 也有三成內容沒被來源證實。醫師審查也證明這點,顯示 LLM 在醫學資訊引用上還有很大改進空間。 PubMed DOI

這項研究發現,大型語言模型(LLMs)在有明確、結構化提示下,能準確且一致地評分醫學生臨床紀錄,但如果只給簡單指示,結果會不穩定。LLM有時會算錯總分,需要外部協助。整體來說,經過優化後,LLM有潛力成為醫學教育自動評分工具,但針對更複雜的評分系統還需進一步研究。 PubMed DOI

這項研究發現,像ChatGPT這類大型語言模型在評估日本網路乳癌治療資訊品質時,表現和專家相當接近,尤其在化療相關內容上分數最高。不過,LLMs評分普遍偏高,且Google搜尋排名和資訊品質沒什麼關聯。雖然LLMs能有效協助評估,但全面把關還是需要專業人士參與。 PubMed DOI