Which curriculum components do medical students find most helpful for evaluating AI outputs?
醫學生認為哪些課程內容對評估 AI 輸出最有幫助？ BMC Med Educ 2025-02-06

這項研究針對最後一年醫學生評估大型語言模型（LLM），特別是GPT-3.5，在臨床情境中的反應能力。調查148名醫學生，結果顯示他們準確評估LLM反應的中位數為56%。學生認為互動式案例學習和病理學教學對評估AI輸出最有幫助，但只有5%的人知道「臨床提示工程」。研究指出，雖然學生在評估LLM方面有一定能力，但醫學教育需加強AI互動和提示工程的訓練，以幫助未來醫生適應AI增強的醫療環境。相關文章 PubMed DOI

Decoding substance use disorder severity from clinical notes using a large language model.
利用大型語言模型解碼臨床筆記中的物質使用障礙嚴重程度。 Npj Ment Health Res 2025-02-06

物質使用障礙（SUD）是影響個人健康與社會福祉的重要議題。診斷與治療SUD需考量多種因素，但現行的診斷系統如ICD-10常缺乏必要細節，醫師需依賴DSM-5補充資訊。傳統自然語言處理（NLP）在解讀臨床語言上有困難，但大型語言模型（LLMs）顯示出潛力。本研究探討如何利用LLMs從臨床筆記中提取SUD的嚴重程度資訊，實驗結果顯示開源LLM Flan-T5在召回率上優於傳統方法，能有效提升SUD患者的風險評估與治療規劃。相關文章 PubMed DOI

[Artificial intelligence in breast imaging : Hopes and challenges].
乳腺影像中的人工智慧：希望與挑戰 Radiologie (Heidelb) 2025-02-06

人工智慧（AI）正逐漸進入臨床實踐，特別是在乳腺影像檢查如乳房攝影中。雖然AI能透過篩選檢查結果來簡化流程，但許多使用者仍不清楚其具體好處。目前，AI在乳房攝影的診斷品質已達到與放射科醫師相當的水平，但在斷層合成影像的應用較少。大部分AI技術仍在開發中，只有乳房攝影的第二意見應用較成熟。建議使用者在實施前，仔細評估這些AI應用的成熟度及實際效益。相關文章 PubMed DOI

Evaluating the Efficacy of Perplexity Scores in Distinguishing AI-Generated and Human-Written Abstracts.
評估困惑度分數在區分 AI 生成與人類撰寫摘要中的有效性。 Acad Radiol 2025-02-06

這項研究探討了困惑度分數在區分人類撰寫與AI生成的放射學摘要的有效性，並評估了不同AI檢測工具的表現。研究人員從PubMed選取了50篇與「神經影像學」和「血管造影」相關的英文開放存取文章，並創建了AI生成的摘要。結果顯示，人類撰寫的摘要困惑度分數較高，而AI生成的較低，且某些AI檢測工具的準確率差異顯著。這些結果顯示困惑度分數可能有助於識別AI生成內容，但仍需進一步研究。相關文章 PubMed DOI

Quality of information on Wilms tumour from artificial intelligence chatbots: what are your patients and their families reading?
人工智慧聊天機器人提供的 Wilms 腫瘤資訊質量：您的病人及其家屬在閱讀什麼？ Urology 2025-02-06

這項研究評估了AI聊天機器人在提供Wilms腫瘤資訊的有效性，特別針對患者及其家庭。透過Google Trends找出常見問題，測試了四款聊天機器人（ChatGPT 3.5、Perplexity、Chat Sonic和Bing AI）。結果顯示，所有機器人在資訊質量上得分良好，錯誤資訊極少，平均回應長度為275字，適合高中或大學學生閱讀。雖然資訊可理解性高達83%，但可行性較低，僅40%。總體而言，AI聊天機器人提供的資訊準確且易懂，但仍需醫療專業人員進一步澄清。相關文章 PubMed DOI

ChatGPT and Gemini Are Not Consistently Concordant with 2020 AAOS Clinical Practice Guidelines when Evaluating Rotator Cuff Injury.
ChatGPT 和 Gemini 在評估肩袖損傷時，與 2020 年 AAOS 臨床實踐指導方針並不一致。 Arthroscopy 2025-02-06

這項研究評估了兩個語言學習模型，ChatGPT 和 Gemini，對肩袖損傷治療建議的準確性，並與2020年美國骨科醫學會的臨床指導方針進行比較。結果顯示，ChatGPT 在13種治療方法上與指導方針一致（81%），而Gemini則在12種（75%）。ChatGPT 有3種不一致回應（19%），Gemini則有4種（25%）。根據Cohen's Kappa係數，兩者在分類上的一致性高達0.98。整體來看，雖然兩者表現不錯，但仍有不一致的情況。相關文章 PubMed DOI

ChatGPT-4 Performance on German Continuing Medical Education-Friend or Foe (Trick or Treat)? Protocol for a Randomized Controlled Trial.
ChatGPT-4 在德國持續醫學教育中的表現 - 朋友還是敵人（惡作劇還是好運）？隨機對照試驗的研究計劃。 JMIR Res Protoc 2025-02-06

這項研究探討大型語言模型（如ChatGPT-4）在協助醫療外行人進行醫師持續醫學教育（CME）訓練的潛力，特別針對德國的情況。研究中，成年高中生參加隨機對照試驗，測試他們在不同使用條件下的CME測試表現。數據收集仍在進行中，預計2025年初會公布結果。研究可能會重新評估人工智慧在持續醫學教育中的角色，並揭示其整合的優缺點。該研究已在開放科學框架註冊，詳情可參考提供的連結。相關文章 PubMed DOI

Embed-Search-Align: DNA sequence alignment using transformer models.
Embed-Search-Align: 使用變壓器模型進行 DNA 序列比對。 Bioinformatics 2025-02-06

這段文字介紹了一種新型的DNA序列比對方法，稱為「Embed-Search-Align」(ESA) 框架。它利用無參考DNA嵌入的Transformer模型，生成DNA讀取和參考片段的向量嵌入。ESA的創新包括對比損失自我監督訓練，提升DNA序列的表徵，以及高效的DNA向量儲存，促進全球搜尋。RDE模型在比對250長度的DNA讀取時達到99%準確率，超越傳統方法，顯示出在基因組任務中的穩健性和多樣性。如需更多資訊，請參考提供的連結。相關文章 PubMed DOI

Enhancing reflective practice with ChatGPT: A new approach to assignment design.
利用 ChatGPT 增強反思實踐：一種新的作業設計方法。 Med Teach 2025-02-06

目前的教育挑戰在於，教職員和學生在進行反思實踐時，因為缺乏明確的目的和指導，導致專業成長機會不足。解決方案是利用ChatGPT 4o設計清晰且有結構的反思作業，並依據透明評估框架進行。試點研究顯示，這樣的作業能提升學生表現，並減少教職員的準備時間。接下來的計畫是擴大研究，收集學生對新作業的反饋，並探討AI生成的作業對醫學生的影響。相關文章 PubMed DOI

Evaluating the fidelity of AI-generated information on long-acting reversible contraceptive methods.
評估 AI 生成的長效可逆避孕方法資訊的準確性。 Eur J Contracept Reprod Health Care 2025-02-06

這項研究評估了AI聊天機器人ChatGPT提供的長效可逆避孕法（LARC）資訊的準確性。研究發現，69.3%的回應準確，但16.3%包含過時或不準確的資訊，14.4%則有誤導性陳述。此外，45.1%的回應使用性別排他性語言，僅提及女性。平均可讀性分數顯示需具大學程度的閱讀能力。雖然ChatGPT提供的LARC資訊有其價值，但用戶應謹慎，並獨立驗證資訊的正確性。相關文章 PubMed DOI

LLM 相關三個月內文章 / 第 100 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

LLM 相關三個月內文章 / 第 100 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

可選擇其它分類: 一週新進文章腎臟科一般醫學 SGLT2i GLP1