Performance of Plug-In Augmented ChatGPT and Its Ability to Quantify Uncertainty: Simulation Study on the German Medical Board Examination.
Plug-In 增強型 ChatGPT 的表現及其量化不確定性的能力：德國醫學考試的模擬研究。 JMIR Med Educ 2025-03-21

這項研究分析了不同版本的GPT模型在德國醫學考試中的表現，特別是GPT-3.5、GPT-4及帶插件的GPT-4。自2022年11月GPT-3.5推出以來，對大型語言模型的關注持續上升，但它們在符號推理和獲取最新資訊上仍有局限。研究引入「信心準確度」指標，評估模型在回答中表達不確定性的能力，這對醫療應用相當重要。結果顯示，GPT模型的表現超過醫學考試的最低要求，顯示其在學術和臨床上的潛力，但也顯示出過度自信的問題，需在安全整合AI進醫療前解決挑戰。相關文章 PubMed DOI 推理

Adoption of LLM AI tools in everyday tasks: A multi-site cross-sectional qualitative study of Chinese hospital administrators.
中國醫院管理者日常任務中採用 LLM AI 工具的多地點橫斷面質性研究。 J Med Internet Res 2025-03-21

這項研究探討了中國醫院管理者對大型語言模型（LLM）人工智慧工具的使用情況，重點在於影響其日常行政任務的因素。研究在北京、深圳和成都的三級醫院進行，訪談了31位中層管理者。主要發現包括：只有22.6%的參與者對LLM工具非常熟悉，成都的使用情況最佳。正面經驗和技術專業知識促進採用，但準確性疑慮、技能不足和培訓缺乏是主要障礙。參與者主要用於文件撰寫，顯示高級功能應用有限。研究建議需結構化教學和支持，以提升工具的可用性和整合性，並強調針對性培訓的重要性。相關文章 PubMed DOI 推理

Embracing Foundation Models for Advancing Scientific Discovery.
擁抱基礎模型以推進科學發現。 Proc IEEE Int Conf Big Data 2025-03-21

這篇論文探討大型語言模型（LLMs），如GPT-4o，對科學發現的影響，特別是在假設生成方面。作者展望未來，學術界將更多利用這些模型來提升研究效率。文章提出的核心問題是如何加速科學發現，並識別了兩個挑戰：有效利用模型知識及評估其研究效能。作者提出知識驅動的想法鏈（KG-CoI）來生成假設，以及IdeaBench進行可自訂的基準測試，目的是激發創新，促進人類與人工智慧的合作。相關文章 PubMed DOI 推理

Large Language Models in Ophthalmology: A Review of Publications from Top Ophthalmology Journals.
眼科中的大型語言模型：來自頂尖眼科期刊的出版物回顧。 Ophthalmol Sci 2025-03-21

這項研究回顧了大型語言模型（LLMs）在眼科的應用，特別是高排名期刊的相關文章，共分析了101篇研究，主要來自美國、英國和加拿大。研究指出，LLMs在醫學教育、臨床協助、研究及病人教育中有顯著貢獻，但也引發了對表現不一致、偏見及倫理問題的擔憂。作者強調持續改進AI的重要性，並呼籲建立倫理指導方針及跨學科合作，以應對這些挑戰，展現LLMs在眼科的潛力與限制。相關文章 PubMed DOI 推理

Large language models for automating clinical trial matching.
大型語言模型在自動化臨床試驗匹配中的應用。 Curr Opin Urol 2025-03-21

生成式人工智慧（GAI）技術，特別是大型語言模型（LLMs），在醫學領域的應用越來越普遍，尤其是在病人與臨床試驗配對方面。研究顯示，LLMs能有效匹配病人的健康紀錄與臨床試驗資格標準，並取得良好結果。雖然自動化配對有助於提升病人參與率和減輕醫療工作負擔，但也面臨挑戰，如可能帶來虛假希望、導航困難及需人類監督等問題。進一步研究對驗證LLM在腫瘤學中的安全性和有效性至關重要。相關文章 PubMed DOI 推理

Should my Chatbot Health Coach be Certified and Regulated?
我的聊天機器人健康教練是否應該獲得認證和監管？ Am J Health Promot 2025-03-21

這篇社論探討了人工智慧（AI）在心理健康領域的雙面性，指出其潛在好處與倫理擔憂。像聊天機器人這類AI工具，越來越多被用於提供情感支持和健康輔導，影響了數百萬人。作者是一位健康教練，評估了ChatGPT，發現它能將心理學理論與健康輔導實踐結合。然而，文章強調健康專業人員需面對AI在心理健康服務中帶來的好處與風險之間的平衡問題。相關文章 PubMed DOI 推理

Matching Human Expertise: ChatGPT's Performance on Hand Surgery Examinations.
匹配人類專業知識：ChatGPT 在手外科考試中的表現。 Hand (N Y) 2025-03-21

這項研究評估了ChatGPT 4o在美國手外科學會（ASSH）自我評估問題上的表現，並與先前版本比較。研究使用2008至2013年的ASSH考試數據，透過OpenAI的API進行統計分析。結果顯示，ChatGPT 4o在增強技術的幫助下，表現與人類考生相當，明顯超越ChatGPT 3.5，且測試的可靠性很高。這些發現顯示，人工智慧，特別是ChatGPT，能有效支持醫學教育和臨床實踐，達到與人類專家相似的評估水平。相關文章 PubMed DOI 推理

Application of Large Language Models in Drug-Induced Osteotoxicity Prediction.
大型語言模型在藥物誘導骨毒性預測中的應用。 J Chem Inf Model 2025-03-21

藥物引起的骨毒性是指某些藥物對骨骼的有害影響，這在臨床和藥物開發中都很重要。目前的毒性評估模型缺乏專門的數據和演算法。我們的研究收集了骨毒性分子的數據，並使用DeepSeek和ChatGPT等大型語言模型來預測其特性，準確率分別達到0.87和0.88。研究顯示，機器學習能有效評估藥物對骨骼健康的影響，改善安全協議，減少副作用，提升治療效果，並強調大型語言模型在預測分子毒性方面的潛力。相關文章 PubMed DOI 推理

Is artificial intelligence successful in the Turkish neurology board exam?
人工智慧在土耳其神經學考試中的成功性如何？ Neurol Res 2025-03-21

這項研究探討了ChatGPT-4在土耳其神經學專業考試中的表現，結果顯示其成功率在2021至2023年間達79%到82%。這是首次在真實醫療執照考試中評估ChatGPT的能力，且其表現優於GPT-3.5。將問題翻譯成英文也未影響其表現。該模型能在收到反饋後修正錯誤，展現出靈活性。不過，研究強調使用AI模型時需謹慎，因為它們不一定總能提供正確答案。相關文章 PubMed DOI 推理

Generative AI lacks the human creativity to achieve scientific discovery from scratch.
生成式人工智慧缺乏從零開始實現科學發現的人類創造力。 Sci Rep 2025-03-21

這項研究探討生成式人工智慧（GenAI）在科學發現，特別是分子遺傳學的應用。結果顯示，雖然GenAI能對漸進式發現有所貢獻，但在獨立生成原創假說或突破性發現方面表現不佳，無法像人類一樣進行思考。它主要依賴現有知識和科學家的見解，缺乏識別異常或產生靈感的能力，且可能對自身表現過度自信。研究強調需解決GenAI的局限性，包括倫理和偏見問題，並探討其在科學創新中的潛在角色。相關文章 PubMed DOI 推理

LLM 相關三個月內文章 / 第 53 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

LLM 相關三個月內文章 / 第 53 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

可選擇其它分類: 一週新進文章腎臟科一般醫學 SGLT2i GLP1