LLM 相關三個月內文章 / 第 100 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究針對最後一年醫學生評估大型語言模型(LLM),特別是GPT-3.5,在臨床情境中的反應能力。調查148名醫學生,結果顯示他們準確評估LLM反應的中位數為56%。學生認為互動式案例學習和病理學教學對評估AI輸出最有幫助,但只有5%的人知道「臨床提示工程」。研究指出,雖然學生在評估LLM方面有一定能力,但醫學教育需加強AI互動和提示工程的訓練,以幫助未來醫生適應AI增強的醫療環境。 相關文章 PubMed DOI

物質使用障礙(SUD)是影響個人健康與社會福祉的重要議題。診斷與治療SUD需考量多種因素,但現行的診斷系統如ICD-10常缺乏必要細節,醫師需依賴DSM-5補充資訊。傳統自然語言處理(NLP)在解讀臨床語言上有困難,但大型語言模型(LLMs)顯示出潛力。本研究探討如何利用LLMs從臨床筆記中提取SUD的嚴重程度資訊,實驗結果顯示開源LLM Flan-T5在召回率上優於傳統方法,能有效提升SUD患者的風險評估與治療規劃。 相關文章 PubMed DOI

人工智慧(AI)正逐漸進入臨床實踐,特別是在乳腺影像檢查如乳房攝影中。雖然AI能透過篩選檢查結果來簡化流程,但許多使用者仍不清楚其具體好處。目前,AI在乳房攝影的診斷品質已達到與放射科醫師相當的水平,但在斷層合成影像的應用較少。大部分AI技術仍在開發中,只有乳房攝影的第二意見應用較成熟。建議使用者在實施前,仔細評估這些AI應用的成熟度及實際效益。 相關文章 PubMed DOI

這項研究探討了困惑度分數在區分人類撰寫與AI生成的放射學摘要的有效性,並評估了不同AI檢測工具的表現。研究人員從PubMed選取了50篇與「神經影像學」和「血管造影」相關的英文開放存取文章,並創建了AI生成的摘要。結果顯示,人類撰寫的摘要困惑度分數較高,而AI生成的較低,且某些AI檢測工具的準確率差異顯著。這些結果顯示困惑度分數可能有助於識別AI生成內容,但仍需進一步研究。 相關文章 PubMed DOI

這項研究評估了AI聊天機器人在提供Wilms腫瘤資訊的有效性,特別針對患者及其家庭。透過Google Trends找出常見問題,測試了四款聊天機器人(ChatGPT 3.5、Perplexity、Chat Sonic和Bing AI)。結果顯示,所有機器人在資訊質量上得分良好,錯誤資訊極少,平均回應長度為275字,適合高中或大學學生閱讀。雖然資訊可理解性高達83%,但可行性較低,僅40%。總體而言,AI聊天機器人提供的資訊準確且易懂,但仍需醫療專業人員進一步澄清。 相關文章 PubMed DOI

這項研究評估了兩個語言學習模型,ChatGPT 和 Gemini,對肩袖損傷治療建議的準確性,並與2020年美國骨科醫學會的臨床指導方針進行比較。結果顯示,ChatGPT 在13種治療方法上與指導方針一致(81%),而Gemini則在12種(75%)。ChatGPT 有3種不一致回應(19%),Gemini則有4種(25%)。根據Cohen's Kappa係數,兩者在分類上的一致性高達0.98。整體來看,雖然兩者表現不錯,但仍有不一致的情況。 相關文章 PubMed DOI

這項研究探討大型語言模型(如ChatGPT-4)在協助醫療外行人進行醫師持續醫學教育(CME)訓練的潛力,特別針對德國的情況。研究中,成年高中生參加隨機對照試驗,測試他們在不同使用條件下的CME測試表現。數據收集仍在進行中,預計2025年初會公布結果。研究可能會重新評估人工智慧在持續醫學教育中的角色,並揭示其整合的優缺點。該研究已在開放科學框架註冊,詳情可參考提供的連結。 相關文章 PubMed DOI

這段文字介紹了一種新型的DNA序列比對方法,稱為「Embed-Search-Align」(ESA) 框架。它利用無參考DNA嵌入的Transformer模型,生成DNA讀取和參考片段的向量嵌入。ESA的創新包括對比損失自我監督訓練,提升DNA序列的表徵,以及高效的DNA向量儲存,促進全球搜尋。RDE模型在比對250長度的DNA讀取時達到99%準確率,超越傳統方法,顯示出在基因組任務中的穩健性和多樣性。如需更多資訊,請參考提供的連結。 相關文章 PubMed DOI

目前的教育挑戰在於,教職員和學生在進行反思實踐時,因為缺乏明確的目的和指導,導致專業成長機會不足。解決方案是利用ChatGPT 4o設計清晰且有結構的反思作業,並依據透明評估框架進行。試點研究顯示,這樣的作業能提升學生表現,並減少教職員的準備時間。接下來的計畫是擴大研究,收集學生對新作業的反饋,並探討AI生成的作業對醫學生的影響。 相關文章 PubMed DOI

這項研究評估了AI聊天機器人ChatGPT提供的長效可逆避孕法(LARC)資訊的準確性。研究發現,69.3%的回應準確,但16.3%包含過時或不準確的資訊,14.4%則有誤導性陳述。此外,45.1%的回應使用性別排他性語言,僅提及女性。平均可讀性分數顯示需具大學程度的閱讀能力。雖然ChatGPT提供的LARC資訊有其價值,但用戶應謹慎,並獨立驗證資訊的正確性。 相關文章 PubMed DOI