LLM 相關三個月內文章 / 第 101 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這篇評論強調了在胃腸病學和肝臟病學領域,自然語言處理(NLP)和大型語言模型(LLMs)的進展。根據PRISMA指導原則,分析了2003至2024年間的57項研究,顯示2023至2024年相關出版物顯著增加,特別是針對GPT-3和GPT-4等模型。 主要發現指出,NLP模型在從電子健康紀錄中提取資料方面有所改善,並能高精確度識別疾病特徵。儘管這些技術在提升診斷和治療潛力上表現良好,但在日常臨床實踐中的整合仍面臨挑戰,未來研究應聚焦於其實際應用價值。 相關文章 PubMed DOI

最近生成式人工智慧(AI)在皮膚科診斷的應用上有了新進展,但臨床準確性仍需進一步評估。一項研究比較了三個AI模型與專業皮膚科醫生的診斷表現,結果顯示這些AI模型的準確性與專家相當,甚至在某些罕見和複雜案例中表現更佳。不過,研究樣本量小且可能存在選擇偏差,未來需要更大且多樣化的數據集來驗證AI的臨床實用性。 相關文章 PubMed DOI

大型語言模型(LLMs)正在改變病患用藥管理的教育方式,提供易於取得的資訊,協助醫療決策。這些AI工具能詳細說明藥物相互作用、副作用及緊急護理協議,幫助病患做出明智的用藥選擇。不過,仍有挑戰,如錯誤資訊的風險及缺乏個別病患數據的準確性問題。當病患過度依賴AI建議時,安全性問題更為突出。這篇分析探討了LLMs的能力與限制,並強調監管監督的重要性,以確保這些工具輔助而非取代專業醫療建議。 相關文章 PubMed DOI

這篇論文探討卡爾頓大學健康科學本科生使用ChatGPT-3.5的經驗與看法,並比較其與傳統網路資源的可用性。研究中,27名學生參加了隨機對照試驗,透過問卷評估可用性,並從七名參與者的焦點小組中獲得質性見解。結果顯示,學生認為ChatGPT-3.5更易學習與使用,提升了生產力與創意思考能力,但也對其可靠性、準確性及學術誠信表示擔憂。研究強調在健康科學教育中整合AI需有明確政策與最佳實踐,以確保負責任的使用並提升教育成果。 相關文章 PubMed DOI

這篇論文評估了不同微調的生成大型語言模型(LLMs)在臨床領域的零樣本命名實體識別(NER)表現。研究在第八屆生物醫學聯結註解黑客松進行,重點分析Llama 2和Mistral模型,並比較其基本版本與針對特定任務微調的版本。使用的數據集標註了疾病、症狀和醫療程序。結果顯示,經過指示微調的模型在實體識別上表現優於聊天微調和基本模型,且在要求簡單輸出結構時表現也有所提升。 相關文章 PubMed DOI

這項研究針對最後一年醫學生評估大型語言模型(LLM),特別是GPT-3.5,在臨床情境中的反應能力。調查148名醫學生,結果顯示他們準確評估LLM反應的中位數為56%。學生認為互動式案例學習和病理學教學對評估AI輸出最有幫助,但只有5%的人知道「臨床提示工程」。研究指出,雖然學生在評估LLM方面有一定能力,但醫學教育需加強AI互動和提示工程的訓練,以幫助未來醫生適應AI增強的醫療環境。 相關文章 PubMed DOI

物質使用障礙(SUD)是影響個人健康與社會福祉的重要議題。診斷與治療SUD需考量多種因素,但現行的診斷系統如ICD-10常缺乏必要細節,醫師需依賴DSM-5補充資訊。傳統自然語言處理(NLP)在解讀臨床語言上有困難,但大型語言模型(LLMs)顯示出潛力。本研究探討如何利用LLMs從臨床筆記中提取SUD的嚴重程度資訊,實驗結果顯示開源LLM Flan-T5在召回率上優於傳統方法,能有效提升SUD患者的風險評估與治療規劃。 相關文章 PubMed DOI

人工智慧(AI)正逐漸進入臨床實踐,特別是在乳腺影像檢查如乳房攝影中。雖然AI能透過篩選檢查結果來簡化流程,但許多使用者仍不清楚其具體好處。目前,AI在乳房攝影的診斷品質已達到與放射科醫師相當的水平,但在斷層合成影像的應用較少。大部分AI技術仍在開發中,只有乳房攝影的第二意見應用較成熟。建議使用者在實施前,仔細評估這些AI應用的成熟度及實際效益。 相關文章 PubMed DOI

這項研究探討了困惑度分數在區分人類撰寫與AI生成的放射學摘要的有效性,並評估了不同AI檢測工具的表現。研究人員從PubMed選取了50篇與「神經影像學」和「血管造影」相關的英文開放存取文章,並創建了AI生成的摘要。結果顯示,人類撰寫的摘要困惑度分數較高,而AI生成的較低,且某些AI檢測工具的準確率差異顯著。這些結果顯示困惑度分數可能有助於識別AI生成內容,但仍需進一步研究。 相關文章 PubMed DOI

這項研究評估了AI聊天機器人在提供Wilms腫瘤資訊的有效性,特別針對患者及其家庭。透過Google Trends找出常見問題,測試了四款聊天機器人(ChatGPT 3.5、Perplexity、Chat Sonic和Bing AI)。結果顯示,所有機器人在資訊質量上得分良好,錯誤資訊極少,平均回應長度為275字,適合高中或大學學生閱讀。雖然資訊可理解性高達83%,但可行性較低,僅40%。總體而言,AI聊天機器人提供的資訊準確且易懂,但仍需醫療專業人員進一步澄清。 相關文章 PubMed DOI