LLM 相關三個月內文章 / 第 47 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 相關文章 PubMed DOI

展望2034年,數位科技,特別是人工智慧(AI),將帶來重大變革,影響醫療、臨終關懷及高等教育等領域。AI能提升醫師的溝通技巧,透過模擬困難對話,讓醫療人員在安全環境中練習,增進同理心與病患互動。此外,AI的語言理解能力將改善病患與醫療提供者的溝通,確保照護更具個人化。總之,AI將在提升醫療與教育的溝通品質上扮演關鍵角色,促進更具同理心的照護方式。 相關文章 PubMed DOI

過敏症狀,尤其是由花粉引起的過敏,越來越普遍,預計未來15年內,約50%的歐洲人會受到影響,主要因城市化和氣候變遷。本研究分析了2006年12月至2022年1月期間,Twitter上有關花粉症狀的討論,發現推文在3月至8月之間最多,且近年來患者的推文顯著增加,特別是在早晨。研究強調了解地方性過敏經驗的重要性,因為社會文化和經濟因素會影響患者的感受。分析Twitter數據有助於制定預防措施,改善花粉過敏者的健康資訊獲取。 相關文章 PubMed DOI

這項研究分析了電影《鳥人或(無知的意外美德)》中的典故字幕翻譯挑戰,對比人類翻譯者與AI生成的阿拉伯語字幕。研究發現,人類翻譯者在名詞短語典故中使用保留策略並添加澄清,而AI則創造新詞。關鍵短語方面,人類翻譯者調整措辭,AI則依賴字面翻譯,未能捕捉細微意義。評估顯示AI在名詞短語上有輕微語義錯誤,但關鍵短語則有嚴重錯誤,影響流暢性。研究建議在評估模型中加入一致性,以提升觀眾理解。 相關文章 PubMed DOI

這項研究探討基於變壓器模型的領域適應技術,以提升對醫療文本的理解,特別針對葡萄牙語的健康照護語言模型。研究發現,雖然英語和中文已有許多相關模型,但歐洲葡萄牙語卻缺乏公共健康照護語言模型。建議先開發一般模型,再針對特定疾病進行開發。變壓器在信息提取中最為常用,主要聚焦於命名實體識別。研究指出,領域適應能提升任務表現,並呼籲對葡萄牙語進行更多研究,以改善醫療信息提取,幫助醫療人員更有效管理病患數據。 相關文章 PubMed DOI

生命週期評估(LCA)在清單建模上常遇挑戰,特別是前景流數據不足及背景數據不一致。傳統方法如過程模擬和機器學習在可擴展性和通用性上表現不佳。大型語言模型(LLMs)有潛力解決這些問題,因為它們能利用廣泛的預訓練知識。將LLMs整合進LCI建模中,可以自動化整理數據並提升分析能力。本文探討LLMs如何應對挑戰,並建議未來研究方向,包括改善檢索增強生成(RAG)、整合知識圖譜及微調LLMs以適應LCI任務,期望能促進更自動化的LCI建模方法,提升LCA計算的數據品質。 相關文章 PubMed DOI

2023年12月7日,意大利人工智慧醫學學會(SIIAM)舉辦首次年會,成為將AI融入意大利醫療系統的重要里程碑。會中舉行的合作工作坊,聚集了51位來自醫學、工程、數據科學及法律等領域的專家,討論如何利用大型語言模型(LLMs)改善慢性病患者的遠程監測及醫療溝通。參與者還探討了機器學習在兒科急診的應用及推動AI在偏遠地區醫療的教育倡議,展現了AI改變醫療的潛力與願景。 相關文章 PubMed DOI

這篇論文提出了一個新的深度主動學習框架,專注於改善非結構化醫療數據的標註,特別是臨床筆記,使用SOAP格式。由於醫療數據標籤不明確,手動標註困難,因此採用基於變壓器的深度學習技術,自動化多類別文本分類的標註過程,減少手動工作量並提升分類性能。實驗結果顯示,該模型在F1分數上比現有方法提高了4.8%。這不僅提升了分類準確性,還為醫療專業人員提供了實用工具,可能改善臨床文檔和病患照護。研究建議未來可整合多模態數據和大型語言模型,進一步增強臨床文本分析。 相關文章 PubMed DOI

這項研究評估了ChatGPT在糖尿病相關問題上,烏爾都語和英語的回答品質。結果顯示,只有3.8%的烏爾都語回答是全面的,9.4%雖然正確但不夠充分,還有47.2%包含混合資訊,正確與錯誤資料並存。準確性方面,92.5%的烏爾都語回答都不如英語的準確。這顯示ChatGPT雖然能提供有用資訊,但在醫療情境中不應單靠它,還需進一步改善烏爾都語的回答品質。 相關文章 PubMed DOI

這項研究評估了生成式人工智慧模型在正式醫學考試中的表現,使用了台灣內科醫學會的考題。測試了三個AI模型:GPT-4o、Claude_3.5 Sonnet和Gemini Advanced。結果顯示,GPT-4o在2022年達到最高分86.25,Claude_3.5 Sonnet在精神科和腎臟科表現優異,最高分88.13,而Gemini Advanced的平均分較低。所有模型在文字題上表現較好,顯示AI在醫學教育中有潛力,但不同專科和問題類型的熟練程度仍有差異。 相關文章 PubMed DOI