Reasoning Language Model as Rule Finder: A Case Study on C-H Bond Activation Using 2D Metal-Organic Frameworks.
以推理語言模型作為規則發現者：以2D Metal-Organic Frameworks於C-H鍵活化之案例研究 ACS Cent Sci 2025-07-29

這篇研究用大型語言模型（LLM）來萃取可解釋的規則，預測不同分子修飾的Fe-terpyridine MOF催化劑在C(sp³)-H活化反應的表現。結果發現，帶有吸電子或有配位能力官能基的對位苯甲酸鹽能提升催化效果，主要是透過調整催化劑的電子狀態。LLM推導的規則經驗證，準確率達82.6%，展現LLM在催化研究上的潛力。相關文章 PubMed DOI 推理

Zero-Shot Extraction of Seizure Outcomes from Clinical Notes Using Generative Pretrained Transformers.
使用生成式預訓練轉換器（Generative Pretrained Transformers）從臨床紀錄中零樣本萃取癲癇發作結果 J Healthc Inform Res 2025-07-29

這項研究發現，大型生成式語言模型（像Llama2）只要透過簡單的提示設計，就能準確從未結構化的臨床紀錄中擷取資訊，不需人工標註或微調。在零樣本或少量樣本下，GPT模型表現比沒微調的BERT好，有時甚至勝過已微調的BERT，特別適合內容較簡略的紀錄。這顯示GPT模型分析電子病歷既有效又省人力。相關文章 PubMed DOI 推理

Assessing the Effectiveness of Automatic Speech Recognition Technology in Emergency Medicine Settings: a Comparative Study of Four AI-Powered Engines.
急診醫學情境中自動語音辨識技術效能評估：四種AI引擎的比較研究 J Healthc Inform Res 2025-07-29

這項研究比較四款主流自動語音辨識系統在救護現場模擬下的表現。雖然 Google 臨床 ASR 整體最好，但在「呼吸道」和「瞳孔」等關鍵醫療資訊上，所有系統都表現不佳。結果顯示，目前 ASR 技術在吵雜、緊急的救護現場還不夠穩定，還需要再改進，暫時不適合用來即時做臨床紀錄。相關文章 PubMed DOI 推理

<i>LongHealth</i>: A Question Answering Benchmark with Long Clinical Documents.
LongHealth：具備長篇臨床文件的問答基準 J Healthc Inform Res 2025-07-29

LongHealth 基準測試專門評估大型語言模型在處理真實臨床紀錄時的表現。研究發現，雖然部分模型在資訊擷取上還不錯，但在辨識遺漏資訊這方面都不理想，還沒達到臨床安全標準。這個公開的基準測試有助於推動醫療 AI 的改進與發展。相關文章 PubMed DOI 推理

Determination of Methyl Group Positions in Long-Chain Aliphatic Methyl Ethers and Alcohols by Gas Chromatography/Orbitrap Mass Spectrometry.
利用氣相層析/Orbitrap 質譜法測定長鏈脂肪族甲基醚與醇中甲基位置 Anal Chem 2025-07-29

這篇研究用高解析度Orbitrap質譜儀，搭配特定電壓和自訂分析腳本，成功分離出能判斷甲基分支位置的診斷離子，不用複雜衍生化。方法已在標準品和蜘蛛樣本驗證，還發現新雄性特有甲基醚。這技術也適用於相關醇類分析，但靈敏度略低。相關文章 PubMed DOI 推理

Can AI Outperform Human Aspirants? Evaluating 3 ChatGPT Models on the Spanish FIR and BIR Specialized Health Examinations.
AI 能超越人類考生嗎？三種 ChatGPT 模型於西班牙 FIR 與 BIR 專業醫學考試的表現評估 J Appl Lab Med 2025-07-29

這項研究發現，OpenAI 的 GPT-4o Mini、GPT-4o 和 GPT-o1 在西班牙醫學考試表現都很優秀，甚至超越頂尖考生，GPT-o1 正確率最高。不過，遇到圖片題和專業題還是會卡關。GPT-o1 也比較會修正錯誤。總結來說，這些 AI 很適合輔助考試和臨床訓練，但還是需要專業醫師把關。相關文章 PubMed DOI 推理

Artificial intelligence in pediatric ophthalmology: a comparative study of ChatGPT-4.0 and DeepSeek-R1 performance.
兒童眼科中的人工智慧：ChatGPT-4.0 與 DeepSeek-R1 表現的比較研究 Strabismus 2025-07-29

這項研究發現，DeepSeek-R1 在回答小兒眼科問題時，正確率高於 ChatGPT-4.0，特別是在非斜視相關題目上表現更好。不過，兩者若要實際應用於臨床，還需要再加強改進。相關文章 PubMed DOI 推理

Diagnostic Performance of ChatGPT-4.0 in Histopathological Analysis of Gliomas: A Single Institution Experience.
ChatGPT-4.0 在膠質瘤組織病理分析中的診斷表現：單一機構經驗 Neuropathology 2025-07-29

這項研究比較了ChatGPT-4.0和Gemini 2.5 Pro在協助病理醫師診斷不同膠質瘤的表現。ChatGPT-4.0在25個病例中有88%正確率，對膠質母細胞瘤診斷最準，但對寡樹突膠質細胞瘤和星狀細胞瘤有誤判。男女診斷準確率差不多。整體來說，ChatGPT-4.0表現中等，未來有潛力，但還需改進才能臨床應用。相關文章 PubMed DOI 推理

Dr. LLM Will See You Now: The Ability of ChatGPT to Provide Geographically Tailored Colorectal Cancer Screening and Surveillance Recommendations.
Dr. LLM 現在為您看診：ChatGPT 提供地理區域量身打造之大腸直腸癌篩檢與追蹤建議的能力 J Clin Med 2025-07-29

這項研究發現，ChatGPT-4.5針對不同國家的大腸直腸癌篩檢與追蹤建議，正確率落在40.7%到63.0%之間，表現會因國家和語言不同而有落差。尤其在瘜肉處理和追蹤建議上，羅馬尼亞和義大利的指引差異最大。研究也指出，ChatGPT的建議有時和標題不符，臨床可靠性令人擔憂，提醒大家用AI做地區醫療建議時要特別小心。相關文章 PubMed DOI 推理

Assessing LLMs on IDSA Practice Guidelines for the Diagnosis and Treatment of Native Vertebral Osteomyelitis: A Comparison Study.
以IDSA原發性椎體骨髓炎診斷與治療指引評估大型語言模型（LLMs）：一項比較研究 J Clin Med 2025-07-29

這項研究比較四種大型語言模型在回答原發性脊椎骨髓炎臨床問題的表現。結果顯示，ChatGPT-4o 和 Gemini 的答案最準確、最完整，明顯優於 Consensus。這代表先進的 LLMs 有潛力協助醫師做出更好的循證臨床決策。相關文章 PubMed DOI 推理

LLM 相關三個月內文章 / 第 67 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

LLM 相關三個月內文章 / 第 67 頁

可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

可選擇其它分類: 一週新進文章腎臟科一般醫學 SGLT2i GLP1