LLM 相關三個月內文章 / 第 133 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究的重點在於將大型語言模型的推理能力壓縮成參數較少的小型語言模型,讓它們更容易使用且不影響性能。作者提出了一種新方法,稱為思維方程蒸餾,透過方程式捕捉推理過程,並建立微調小型模型的數據集。此外,他們還提出集成思維蒸餾框架,結合多種思維過程來提升小型模型的推理能力。實驗結果顯示,這些方法顯著提升了小型模型的推理表現。 相關文章 PubMed DOI

這篇論文介紹了MedExpQA,這是一個多語言的基準,專門用來評估大型語言模型(LLMs)在醫療問答的表現。雖然LLMs在醫療執照考試中表現不錯,但仍面臨知識過時和生成不準確資訊的問題。現有基準缺乏參考解釋,讓評估LLM的推理變得困難。MedExpQA提供醫療專業人士的正確與錯誤答案作為參考,研究顯示LLMs在英語的準確率約75%,但其他語言下降10%。作者計劃公開數據、代碼和微調模型,以促進後續研究。 相關文章 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4.0,對於三級醫療機構病人投訴的回應效果。研究比較了ChatGPT與病人關係部門的回應,結果顯示87.2%到97.3%的受訪者更偏好ChatGPT的回應,且其在適當性、同理心等方面得分較高。ChatGPT的回應平均較長,且與高得分有關。研究顯示,ChatGPT能有效提升病人投訴的解決效果,未來可進一步探討AI在醫療系統中的應用潛力。 相關文章 PubMed DOI

這篇系統性回顧探討了ChatGPT在醫療保健的應用,包括教育、研究、寫作、病患溝通等。透過對多個資料庫的搜尋,找到83篇相關研究,顯示ChatGPT能改善科學研究和學術寫作的文法與清晰度,特別對非英語使用者有幫助。不過,它也有不準確性、倫理問題和情感敏感度不足等限制。雖然能簡化工作流程並支持診斷與教育,但仍需謹慎使用,因為資訊可靠性和誤導性回應的風險存在。 相關文章 PubMed DOI

這項研究評估了ChatGPT對眼科病人問題的回答準確性和重現性。研究人員從美國眼科學會的「詢問眼科醫生」頁面收集了150個問題,經過兩位眼科醫生的精煉,最終有117個問題輸入ChatGPT。結果顯示,ChatGPT對59.8%的問題提供了全面回答,且在91.5%的問題上保持一致性。雖然其準確性和重現性中等,但應視為健康資訊的輔助來源,而非專業醫療建議的替代品,未來仍需進一步研究以評估其可靠性。 相關文章 PubMed DOI

這項研究評估大型語言模型(LLMs)在社交媒體健康相關文本分類的表現,並比較了不同模型的效果。結果顯示,基於人類標註數據的模型如RoBERTa和BERTweet表現優於基於GPT-3.5和GPT-4的模型。雖然LLM可用於數據增強,但僅依賴LLM標註數據訓練效果不佳。研究指出,LLM作為零樣本分類器能有效減少假陰性,並減輕手動標註負擔,顯示其在特定領域自然語言處理的潛力。 相關文章 PubMed DOI

這項分析評估了AI文本生成器的表現,特別是ChatGPT和Google Gemini在回答臨床問題時的表現。結果顯示,ChatGPT提供的文獻資訊相對準確,但在臨床內容上有不一致的情況。相比之下,Google Gemini則產生了完全虛構的引用和摘要。雖然這兩個工具的回應看起來可信,但實際上存在不準確性,這讓它們作為臨床資訊來源的可靠性受到質疑。 相關文章 PubMed DOI

近年來,大型語言模型(LLMs)已被應用於醫療領域,特別是在前列腺癌的病患溝通上。我們的研究評估了三種LLM的效果,包括ChatGPT(3.5)、Gemini(Pro)和Co-Pilot(免費版),並與官方的羅馬尼亞前列腺癌病患指南進行比較。透過隨機和盲測,八位醫療專業人員根據準確性、及時性、全面性和使用友好性進行評估。結果顯示,LLM,尤其是ChatGPT,通常提供比指南更準確且友好的資訊,顯示出其在改善醫療溝通上的潛力。不過,不同模型的表現差異也顯示出需要量身定制的實施策略。 相關文章 PubMed DOI

這項調查評估了六個人工智慧模型在針對有瘢痕疙瘩及不同程度近視的病人進行屈光手術建議的能力。結果顯示,這些模型一致推薦光學屈光角膜切削術(PRK),而六位經驗豐富的眼科醫生則一致推薦激光原位角膜磨鑿術(LASIK)。值得注意的是,模型提供的42個參考文獻中有55%是虛構的,只有45%是真實的。只有一個模型在近視加重時改變建議,顯示目前人工智慧在臨床決策中的批判性思考能力仍有待加強。 相關文章 PubMed DOI

這項研究評估了ChatGPT對於哮喘常見問題的回答能力,重點在於其可靠性、可接受性和可讀性。研究人員從全球哮喘倡議組織收集了30個問題,並詢問ChatGPT兩次以檢查一致性。五位內科醫師評估了這些回答,結果顯示93.33%的回答被認為可靠,平均評分為3.65分(滿分4分)。不過,78.3%的回答對患者可接受,但可讀性較差,顯示仍需改進,以便更適合患者使用。 相關文章 PubMed DOI