LLM 相關三個月內文章 / 第 23 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這段論述指出大型語言模型(LLMs)在理解人類語言的學習與演變上有其限制。主要有兩個觀點: 1. **功能與機制的差異**:雖然LLMs能生成類似人類的語言,但其學習過程與人類不同。人類透過多種感官互動學習語言,而LLMs主要依賴文本數據,這使得它們的相似性只是表面現象。 2. **語言行為的範疇**:人類的語言使用範圍更廣,而LLMs的設計限制了它們對語言意義的理解及自然互動的能力。 因此,LLMs應被視為輔助語言研究的工具,而非語言理論本身,這強調了謹慎應用的必要性。 相關文章 PubMed DOI

這項研究評估了大型語言模型(LLMs)在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例,使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示,ChatGPT-4的前10名診斷中,最終診斷納入率最高,達86.7%,其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者,突顯了生成式人工智慧在醫療診斷中的潛力。 相關文章 PubMed DOI

這項研究評估了ChatGPT在回答近視相關問題的有效性,重點在於適當性、可用性和清晰度。眼科醫生評估後發現,只有45%的回應被認為適當且可用,僅35%的回應符合所有標準。根據中文可讀性指數,回應的可讀性介於中學到高中水平。特別是關於治療效果和副作用的回應較少。總體來看,ChatGPT在解答兒童近視問題上表現不佳,顯示出眼科專業人士理解AI生成資訊的重要性,因為家長們越來越依賴線上健康資源。 相關文章 PubMed DOI

這項研究比較了OpenAI的ChatGPT和Google的Bard在提供美容手術病人指導的表現,特別針對拉皮、鼻整形和眉毛提升手術。結果顯示,ChatGPT的平均得分為8.1/10,優於Bard的7.4/10,且在準確性、全面性等方面表現更佳。不過,Bard的回應速度較快。儘管如此,兩者的表現仍有待改進,需進一步開發和驗證才能推薦用於美容外科實踐。 相關文章 PubMed DOI

這項研究系統性回顧了生成性大型語言模型(LLMs)在臨床環境,特別是電子健康紀錄(EHRs)的應用。儘管自然語言處理技術進步,LLMs在臨床實踐中的整合仍有限,面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻,發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性,以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估,以提升LLMs在醫療中的可靠性。總之,LLMs在病人護理上有潛力,但仍需克服重大障礙。 相關文章 PubMed DOI

醫療行動本體(MAxO)是一個用來表示治療和管理病患行動的工具,特別針對罕見疾病。由於手動整理超過10,000種罕見疾病的術語相當困難,因此開發了半自動化的AutoMAxO工作流程,利用大型語言模型(LLMs)來簡化整理過程。AutoMAxO從醫學摘要中提取整理內容,並與MAxO及其他本體術語匹配,最終由人類整理者審核。研究中,AutoMAxO處理了4,918篇摘要,識別出18,631個候選內容,並確認538個加入MAxO,顯示生成式AI在精準醫療中的潛力。 相關文章 PubMed DOI

在澳洲,雖然女性藥師佔64%,但她們在視覺表現上仍然不足。2024年3月的一項研究使用DALL-E 3生成澳洲藥師的圖像,結果顯示69.7%的藥師是男性,93.5%擁有淺色膚色,顯示出明顯的性別和種族偏見。所有生成的藥師圖像都是男性且膚色淺,與實際的多樣性形成鮮明對比。這項研究凸顯了生成式AI可能延續刻板印象的問題。 相關文章 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4 和 Gemini,在回答病毒學多選題的表現,涵蓋英語和阿拉伯語。研究使用 CLEAR 工具分析了 40 道題目的回答正確性,結果顯示 ChatGPT-4 在兩種語言中均優於 Gemini,英語正確率分別為 80% 和 62.5%,阿拉伯語則為 65% 和 55%。兩者在較低認知領域表現較佳,結果顯示人工智慧在醫療教育中的潛力,並強調了提升多語言有效性的必要性。 相關文章 PubMed DOI

這項研究探討了ChatGPT在口腔與顏面外科考試中對牙科本科生的自動化作文評分(AES)可靠性,並與人類評估者進行比較。69名新加坡國立大學的學生參加了考試,結果顯示第一道題目的AES與人類評分有強相關性,而第二道題目則中等相關。評分者之間的一致性和可靠性都很高。研究指出,ChatGPT在作文評分上有潛力,但設計有效的評分標準對於提升可靠性非常重要。隨著進一步驗證,ChatGPT可望協助自我評估及自動化評分。 相關文章 PubMed DOI

這項研究探討了現代大型語言模型(LLMs),如GPT-3.5、GPT-4和Llama 3,在評估精神分裂症的正式思維障礙方面的有效性。研究發現,這些模型生成的評分與專家評分相當一致,顯示出不錯的準確性。不過,LLMs的評分在準確性和一致性上存在權衡,傳統自然語言處理方法則較為一致。研究者建議透過參數調整和集成方法來改善這種不一致性,並討論了將這些技術應用於精神評估的最佳實踐。 相關文章 PubMed DOI