LLM 相關三個月內文章 / 第 11 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

隨著神經外科文獻不斷增加,手動篩選系統評價和指導方針的摘要變得越來越困難。為了解決這個問題,我們評估了兩個大型語言模型(LLMs),Gemini Pro 和 ChatGPT-4o-mini,針對美國神經外科醫學會的 Chiari I 畸形指導方針進行自動篩選。測試結果顯示,Gemini Pro 的敏感性高達 95%,特異性 60%,而 ChatGPT-4o-mini 的敏感性僅 18%,但特異性高達 95%。兩者都能在一小時內完成篩選,顯著縮短時間。這些結果顯示 LLM 在神經外科摘要篩選上的潛力,未來可能幫助醫學領域的指導方針實時更新。 相關文章 PubMed DOI 推理

這項研究探討人工智慧(AI)在簡化骨科創傷病患教育材料的有效性。分析了35篇來自第1級創傷中心的文章,並使用Python程式評估其可讀性。經過四次GPT AI模型改寫後,所有模型成功降低了文章的閱讀年級水平,特別是GPT-4o-Mini和GPT-4o表現最佳,而GPT-3.5-Turbo效果較差。成本分析顯示,GPT-4o每篇文章費用為0.61美元,雖然較貴,但準確性高。研究結論認為,AI能有效簡化病患教育材料,且保持準確性。 相關文章 PubMed DOI 推理

大型語言模型(LLMs),像是ChatGPT,正被研究用於增強慢性腎臟病(CKD)患者的營養指導。為了發揮其最佳效能,醫療專業人員、患者及照顧者的合作至關重要。雖然LLMs能提供食譜建議,但在分析電解質和卡路里等重要營養成分上仍有不足。未來的技術進步預期能改善這些能力,實現精確的營養分析和烹飪輔助工具。CKD社群的參與對於推動人工智慧在營養護理中的應用非常重要,並需保持批判性思維。 相關文章 PubMed DOI 推理

這項研究探討人工智慧(AI)在改善傳染病臨床決策中的角色,特別是抗生素處方的指導。透過系統性文獻回顧,評估了AI技術在抗微生物管理中的有效性。結果顯示,十七項研究中,機器學習作為臨床決策支持系統(CDSS)能有效預測抗藥性並優化抗生素使用;而六項大型語言模型的研究則顯示處方錯誤率較高,需精確提示才能獲得準確回應。研究強調傳染病專家的重要性,並指出AI需經過嚴格驗證才能有效整合進臨床實踐。 相關文章 PubMed DOI 推理

慢性腎臟病(CKD)是全球公共健康的重大挑戰,導致心血管疾病和死亡率上升。為了改善CKD管理,這篇回顧分析了2014至2024年間41篇文章,探討人工智慧(AI)在早期檢測、風險預測、治療建議及病人護理中的應用。研究顯示,AI能有效提升病人結果,但實施過程中面臨數據質量、模型準確性及工作流程整合等挑戰。成功整合AI需醫療界、研究者及監管機構的合作,以確保病人安全和法律合規。 相關文章 PubMed DOI 推理

這項研究探討使用OpenAI的Whisper模型來檢測超鼻音,這是一種與軟顎咽部不足(VPI)相關的語音障礙,對心理社會和功能影響重大。傳統診斷方法需專業技術和設備,資源有限時難以取得。 研究人員調整Whisper模型進行二元分類,並在包含184個音頻錄音的數據集上訓練,結果顯示測試準確率達97%,F1分數為0.97,超越傳統機器學習方法。Whisper模型在各種錄音條件下表現優異,所需訓練數據量少,顯示其在超鼻音檢測中的可擴展性和效率,能有效優化臨床資源配置。 相關文章 PubMed DOI 推理

這項研究探討了大型語言模型(LLMs),如ChatGPT-4、Bing和Bard,對肝臟病學臨床問題的回答效果。研究於2023年9月進行,涵蓋144個多選題和開放式問題。結果顯示,ChatGPT-4在多選題的準確率為62.3%,開放式問題則為44.4%,均為最高;Bing和Bard的表現則較低。值得注意的是,ChatGPT-4和Bing回答了所有問題,而Bard有11.8%的問題無法回應。研究建議需進一步探討如何在臨床和教育中最佳利用這些模型。 相關文章 PubMed DOI 推理

這項研究評估了OpenAI的ChatGPT-4在提供心房顫動相關資訊的準確性。研究使用108個結構化問題,涵蓋治療選擇和生活方式調整,由三位心臟科醫師根據準確性、清晰度和臨床相關性評估其回答。結果顯示,ChatGPT-4在「生活方式調整」和「日常生活與管理」表現良好,但在較複雜的問題上則表現不佳。整體而言,雖然它在簡單主題上有潛力,但對於需要深入臨床見解的複雜問題仍有局限。 相關文章 PubMed DOI 推理

這項研究評估了大型語言模型(LLM),特別是ChatGPT 4o,生成的國家牙科考試風格問題的質量,並與人類專家設計的問題進行比較。研究於2024年6月進行,30名高年級牙科學生參與,從教科書中生成44個問題,最終選出20個LLM組問題,另一組則由兩位專家設計。分析重點在難度、區分指數和干擾項效率。結果顯示,LLM組的問題在難度和區分指數上表現優於人類組,但差異不顯著。總體來看,LLM生成的問題質量與人類專家相當。 相關文章 PubMed DOI 推理

這項研究回顧了大型語言模型(LLMs)在生成病人教育材料(PEMs)的應用。研究人員根據JBI指導方針,從五個資料庫中篩選出69項相關研究,並提取了21個變數,分為五個主題。主要發現包括:美國的研究最多,最常用的LLM是ChatGPT-4、3.5和Bard,大多數研究集中在評估生成回應的準確性和可讀性,只有三項研究使用外部知識庫,且大部分提示為英語。總體而言,這項回顧顯示LLMs在創建有效病人教育材料方面的潛力,並指出評估框架和多語言應用的不足。 相關文章 PubMed DOI 推理