LLM 相關三個月內文章 / 第 67 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這篇研究用大型語言模型(LLM)來萃取可解釋的規則,預測不同分子修飾的Fe-terpyridine MOF催化劑在C(sp³)-H活化反應的表現。結果發現,帶有吸電子或有配位能力官能基的對位苯甲酸鹽能提升催化效果,主要是透過調整催化劑的電子狀態。LLM推導的規則經驗證,準確率達82.6%,展現LLM在催化研究上的潛力。 相關文章 PubMed DOI 推理

這項研究發現,大型生成式語言模型(像Llama2)只要透過簡單的提示設計,就能準確從未結構化的臨床紀錄中擷取資訊,不需人工標註或微調。在零樣本或少量樣本下,GPT模型表現比沒微調的BERT好,有時甚至勝過已微調的BERT,特別適合內容較簡略的紀錄。這顯示GPT模型分析電子病歷既有效又省人力。 相關文章 PubMed DOI 推理

這項研究比較四款主流自動語音辨識系統在救護現場模擬下的表現。雖然 Google 臨床 ASR 整體最好,但在「呼吸道」和「瞳孔」等關鍵醫療資訊上,所有系統都表現不佳。結果顯示,目前 ASR 技術在吵雜、緊急的救護現場還不夠穩定,還需要再改進,暫時不適合用來即時做臨床紀錄。 相關文章 PubMed DOI 推理

LongHealth 基準測試專門評估大型語言模型在處理真實臨床紀錄時的表現。研究發現,雖然部分模型在資訊擷取上還不錯,但在辨識遺漏資訊這方面都不理想,還沒達到臨床安全標準。這個公開的基準測試有助於推動醫療 AI 的改進與發展。 相關文章 PubMed DOI 推理

這篇研究用高解析度Orbitrap質譜儀,搭配特定電壓和自訂分析腳本,成功分離出能判斷甲基分支位置的診斷離子,不用複雜衍生化。方法已在標準品和蜘蛛樣本驗證,還發現新雄性特有甲基醚。這技術也適用於相關醇類分析,但靈敏度略低。 相關文章 PubMed DOI 推理

這項研究發現,OpenAI 的 GPT-4o Mini、GPT-4o 和 GPT-o1 在西班牙醫學考試表現都很優秀,甚至超越頂尖考生,GPT-o1 正確率最高。不過,遇到圖片題和專業題還是會卡關。GPT-o1 也比較會修正錯誤。總結來說,這些 AI 很適合輔助考試和臨床訓練,但還是需要專業醫師把關。 相關文章 PubMed DOI 推理

這項研究發現,DeepSeek-R1 在回答小兒眼科問題時,正確率高於 ChatGPT-4.0,特別是在非斜視相關題目上表現更好。不過,兩者若要實際應用於臨床,還需要再加強改進。 相關文章 PubMed DOI 推理

這項研究比較了ChatGPT-4.0和Gemini 2.5 Pro在協助病理醫師診斷不同膠質瘤的表現。ChatGPT-4.0在25個病例中有88%正確率,對膠質母細胞瘤診斷最準,但對寡樹突膠質細胞瘤和星狀細胞瘤有誤判。男女診斷準確率差不多。整體來說,ChatGPT-4.0表現中等,未來有潛力,但還需改進才能臨床應用。 相關文章 PubMed DOI 推理

這項研究發現,ChatGPT-4.5針對不同國家的大腸直腸癌篩檢與追蹤建議,正確率落在40.7%到63.0%之間,表現會因國家和語言不同而有落差。尤其在瘜肉處理和追蹤建議上,羅馬尼亞和義大利的指引差異最大。研究也指出,ChatGPT的建議有時和標題不符,臨床可靠性令人擔憂,提醒大家用AI做地區醫療建議時要特別小心。 相關文章 PubMed DOI 推理

這項研究比較四種大型語言模型在回答原發性脊椎骨髓炎臨床問題的表現。結果顯示,ChatGPT-4o 和 Gemini 的答案最準確、最完整,明顯優於 Consensus。這代表先進的 LLMs 有潛力協助醫師做出更好的循證臨床決策。 相關文章 PubMed DOI 推理