LLM 相關三個月內文章 / 第 52 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

自體免疫性肝病(AILDs)較為罕見,醫療提供者需仔細評估。研究探討了四款聊天機器人(ChatGPT 3.5、Claude、Microsoft Copilot 和 Google Bard)在臨床決策支持中的潛力。十位肝臟專家針對56個問題進行評估,結果顯示Claude得分最高(7.37),ChatGPT次之(7.17)。研究發現這些機器人常提供一般性資訊、劑量資訊不足,且對孕婦的建議不準確。雖然聊天機器人有潛力,但仍需改善資訊的具體性與準確性,以提升其在自體免疫性肝病管理中的有效性。 相關文章 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在識別遺傳疾病時的表現,對比了開源模型(如Llama-2-chat和Vicuna)與封閉源模型(如ChatGPT-4)。結果顯示,開源模型的準確率在54%-68%之間,而ChatGPT-4則高達89%-90%。研究還指出,臨床醫生和一般民眾的提問對模型表現有顯著影響,且使用列表型提示能提升準確性。整體而言,這項研究揭示了LLMs在醫療領域的潛力與挑戰。 相關文章 PubMed DOI

這項研究探討了生成式人工智慧平台ChatGPT在診斷多發性硬化症(MS)的潛力,特別是對Z世代的影響。研究發現,使用ChatGPT的診斷時間顯著短於傳統臨床診斷,且Z世代的診斷準確率高於非Z世代。儘管AI能加速資訊獲取,但其回應可能存在偏見,且不一定適用於所有情況。隨著Z世代對AI的依賴增加,醫療界需謹慎考量這些因素。 相關文章 PubMed DOI

這篇論文回顧了人工智慧在眼科的發展,分析了來自98個國家的3,377篇研究,發現中國和美國的貢獻最為突出。中山大學是重要機構,《Translational Vision Science & Technology》是頂尖期刊,Ting DSW則是主要研究者。研究強調AI在視網膜影像分析及眼病篩檢的潛力,但也指出技術、法規和倫理等挑戰需克服,才能推動創新應用,改善眼病治療效果。 相關文章 PubMed DOI

這項研究探討了使用 GPT-4 標註社交媒體文本,特別是立場檢測,因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集,並由專家標註以確保品質。他們測試了三種提示技術:零樣本、少樣本和帶思考鏈的零樣本,以評估 GPT-4 的表現。 研究結果顯示,GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯,但未能超越經過人工標註微調的模型。特別是,帶思考鏈的零樣本方法在標註方面表現優於標準零樣本,且效果接近少樣本方法。 相關文章 PubMed DOI

您的研究比較了ChatGPT和Google Assistant在弱視問題上的回應,根據AAPOS的指導方針進行分析。重點如下: 1. **關鍵字使用**:ChatGPT納入42%的關鍵字,Google Assistant則為31%。 2. **問題解答**:研究針對弱視的定義、成因、治療及後果進行探討。 3. **術語差異**:ChatGPT使用「眼科醫師」,而Google Assistant提到「眼科醫生」。 4. **閱讀理解**:AAPOS的閱讀水平最低,Google Assistant最高,ChatGPT介於兩者之間。 5. **病人教育影響**:ChatGPT雖提供有用資訊,但缺乏關鍵術語,醫生需確保線上資源能促進病人諮詢。 6. **監控AI回應**:醫生應監控AI提供的資訊,以確保準確性。 整體而言,研究強調準確醫學術語和專業諮詢的重要性。 相關文章 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 相關文章 PubMed DOI

這項研究評估了ChatGPT-4對酒精使用障礙(AUD)問題的回應品質。研究開發了64個問題,結果顯示ChatGPT-4的回應中有92.2%是基於證據的,但只有12.5%提供了外部資源推薦。不過,對於特定地點的問題,所有回應都能指引使用者到合適的資源,如NIAAA治療導航器。此外,85.9%的後續回應也包含支持性文件。整體來看,ChatGPT-4在提供AUD資訊方面展現了良好的能力,可能成為尋求相關資訊者的有用線上資源。 相關文章 PubMed DOI

這項研究探討了利用自然語言處理(NLP)技術,特別是ChatGPT,來提升放射科報告的產出效率。研究人員分析了1,000條來自MIMIC胸部X光數據庫的記錄,並使用Claude.ai提取關鍵字,再透過ChatGPT生成報告。結果顯示,Bart和XLM模型的報告與醫生撰寫的相似度高達99.3%,而其他模型表現較差。研究強調選擇合適的NLP模型對於提升放射科報告的效率和準確性至關重要。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs)中的醫學知識,並評估整合統一醫學語言系統(UMLS)對診斷決策的影響。研究目標包括評估LLMs的醫學知識、UMLS對診斷預測的影響,以及人類評估與UMLS指標的相關性。結果顯示,GPT-3.5在UMLS路徑的完成度上優於其他模型,且整合UMLS知識能提升預測性能,但傳統評估指標與人類專家評估的相關性較弱。研究強調需針對特定任務調整UMLS,並尋找更符合人類判斷的評估指標。 相關文章 PubMed DOI