LLM 相關三個月內文章 / 第 134 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 相關文章 PubMed DOI

這項研究評估了ChatGPT在回答有關重組帶狀疱疹疫苗(RZV)對風濕性和肌肉骨骼疾病患者的問題時的準確性和完整性。研究使用20個基於CDC、ACIP和ACR指導方針的提示,結果顯示ChatGPT的平均準確性得分為4.04,完整性得分為2.3。雖然表現不錯,但研究強調需謹慎對待潛在的錯誤資訊,並強調驗證大型語言模型作為健康資訊來源的重要性。 相關文章 PubMed DOI

檢索增強生成(RAG)透過從資料庫中檢索知識來提升大型語言模型(LLMs)的表現,但傳統方法在檢索句子或段落時可能會引入噪音。為了解決這個問題,我們提出了BiomedRAG框架,將自動檢索的區塊文件直接輸入LLM。經過在四個生物醫學自然語言處理任務和八個數據集的評估,BiomedRAG的表現平均提升了9.95%,並且在多項基準上達到最先進的結果,超越了4.97%。這個框架為生物醫學領域的LLM應用提供了更準確且可調整的方法。 相關文章 PubMed DOI

這項研究評估了四款人工智慧聊天機器人—ChatGPT-4o、MedGebra GPT4o、Meta Llama 3 和 Gemini Advanced,在回答牙髓學的多選題表現。從牙髓學教科書中選取100道題目,進行了兩輪測試。 結果顯示,ChatGPT-4o在兩輪測試中表現最穩定,MedGebra GPT4o在第一輪達到93%的最高準確率,而ChatGPT-4o在第二輪表現最佳(90%)。Meta Llama 3的表現較弱,正確率分別為73%和75%。總體來看,ChatGPT-4o和MedGebra GPT4o在此領域表現優異,但Meta Llama 3和Gemini Advanced仍需改進。 相關文章 PubMed DOI

這篇回顧研究探討了ChatGPT在解剖學教育中的角色,分析了九項相關研究,涵蓋定量與定性研究。主要發現包括:七項為定量研究,四項與其他平台或人類回應比較,整體表現較弱,特別是在詳細答案和科學準確性上。儘管如此,ChatGPT在幫助學生理解解剖概念上顯示出潛力。未來隨著AI進步,可能會改善其在教育中的應用,但目前尚不適合廣泛使用。 相關文章 PubMed DOI

這篇論文探討了新興的「LLM紅隊」實踐,這是一種故意挑釁大型語言模型(LLMs)以產生異常輸出的做法。透過質性研究和多位從業者的訪談,研究旨在定義LLM紅隊的概念、了解其動機,並描述攻擊策略。作者將LLM紅隊視為一種合作且非惡意的努力,主要源於好奇心和解決LLM部署潛在危害的願望。他們識別出12種策略和35種技術,幫助全面理解LLM紅隊的動機與方法。 相關文章 PubMed DOI

這項研究探討了在盧旺達COVID-19疫情期間,被隔離患者的需求與挑戰。研究使用名為WelTel的數位健康服務,透過每日簡訊監測SARS-CoV-2病例。分析了2020年3月至2022年3月間,33,081名患者的對話,並將其與人口及臨床資料連結。結果顯示,最常討論的主題包括症狀、診斷和社會問題等。研究指出,互動式簡訊通訊能有效支持被隔離患者,並透過自然語言處理技術提供重要的醫療與社會見解,助於未來公共衛生應對。 相關文章 PubMed DOI

這項研究評估了GPT-4 Vision (GPT4V)在識別多發性硬化症 (MS) MRI掃描的表現,並與U-Net和Vision Transformer (ViT)進行比較。研究分析了170名MS患者的496個MRI影像。結果顯示,U-Net和ViT的準確率均為94%,而GPT4V為85%。雖然GPT4V在可及性和易用性上有潛力,但由於錯誤分類和過於謹慎,尚不適合臨床應用。研究強調在醫療AI工具使用上需謹慎,特別是對於非專業使用者。 相關文章 PubMed DOI

本研究綜合了近期在生物醫學領域中有關檢索增強生成(RAG)和大型語言模型(LLMs)的研究,旨在提供臨床發展的指導方針。透過系統文獻回顧和統合分析,研究納入了335項研究中的20項,結果顯示RAG顯著提升了模型表現,勝算比為1.35(P = .001)。報告詳細說明了臨床任務及評估方法,並提出在臨床環境中實施增強LLM的指導方針。未來研究應聚焦於RAG的整合與應用。 相關文章 PubMed DOI

這項研究開發了一個名為CXR-LLaVA的開源多模態大型語言模型,專門用來解讀胸部X光影像並生成放射科報告。研究人員在包含374,881張標記影像的數據集上預訓練視覺變壓器,並結合大型語言模型進行微調,使用217,699份報告來提升生成準確性。CXR-LLaVA在內部測試中達到平均F1分數0.81,並在外部測試中為0.56,顯示出超越其他先進模型的潛力。該模型的報告準確率為72.7%,顯示出自動報告的可行性,並強調開源對進一步研究的重要性。 相關文章 PubMed DOI