LLM 相關三個月內文章 / 第 76 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了OpenAI的ChatGPT和Microsoft的Copilot在根據全國綜合癌症網絡針對胰腺導管腺癌指導方針生成回應的準確性。研究發現,ChatGPT的準確性較Copilot優越,完全正確的回應分別為52%和33%。此外,ChatGPT的回應也較為準確,評分為3.33對3.02。兩者的回應普遍冗長,平均字數分別為270字和32字。研究結論指出,雖然這些模型在臨床決策支持上有潛力,但仍需改進以確保準確性和簡潔性。 相關文章 PubMed DOI 推理

這篇評論探討語言模型在蛋白質設計中的應用,將蛋白質視為氨基酸序列,類比於語言模型處理句子中的單詞。文章介紹蛋白質語言模型的基本概念,強調最近的進展,如上下文設計和結構信息整合,並討論目前的限制。此外,評論還建議未來的研究方向,以提升蛋白質語言模型,改善設計結果。 相關文章 PubMed DOI 推理

本研究探討ChatGPT-4o在分析膝關節骨關節炎(OA)X光片的能力,並評估其準確性。117張X光片由兩位骨科醫生和ChatGPT-4o分析,使用多種分級系統。結果顯示,ChatGPT-4o的識別率達100%,但詳細分級準確性僅35%,遠低於醫生的89.6%。此外,ChatGPT-4o在嚴重病例中常低估OA程度,且其評分一致性較差。雖然能快速識別,但在臨床應用上仍需提升分級準確性。未來研究應聚焦於改善這方面的表現。 相關文章 PubMed DOI 推理

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro—在自殺意念反應評估的能力。結果顯示,這三個模型的反應評價普遍比專家自殺學者更適當,尤其是ChatGPT的評分差異最大。異常值分析發現,Gemini的偏差比例最高。整體來看,ChatGPT的表現相當於碩士級輔導員,Claude超過受訓心理健康專業人士,而Gemini則類似未受訓的學校工作人員。這顯示LLMs在評估反應時可能有偏向,但部分模型的表現已達到或超過專業水平。 相關文章 PubMed DOI 推理

這項研究探討社交機器人虛擬病人平台與大型語言模型在醫學生臨床推理訓練中的效果,並與傳統電腦平台比較。瑞典的15名醫學生參與,結果顯示社交機器人平台更具真實感,對學習幫助更大,平均分數較高。定性反饋指出該機器人在臨床推理、溝通及情感技能訓練上的優勢,但也提到一些技術限制。研究建議將社交機器人和大型語言模型整合進虛擬病人模擬中,以提升醫學教育的學習體驗,並提出改進建議。 相關文章 PubMed DOI 推理

這項研究探討大型語言模型(LLMs)在分子腫瘤委員會(MTBs)中為癌症患者提供治療建議的應用。研究發現,LLM引用的75%文獻正確來自PubMed,但有17%是錯誤或虛構的。臨床醫生的查詢準確性較高,LLM的25%回應與醫生建議一致,37.5%則提供合理替代方案。雖然LLM能提升MTB會議效率,但仍需醫生的監督以減少錯誤。未來需進一步研究以增強其可靠性。 相關文章 PubMed DOI 推理

健康溝通與推廣在網路上的變化受到科技進步,特別是生成式人工智慧(GenAI)的影響。雖然這些技術為公眾和健康專業人士帶來新機會,但也可能加劇健康差距。文章探討了GenAI在健康推廣中的應用及其挑戰,強調以往網路溝通的局限性,如缺乏即時回應和個性化建議。研究呼籲進一步探討GenAI在公共健康推廣中的實證研究,並強調提升數位素養和社會弱勢群體的科技存取,以減少健康不平等。 相關文章 PubMed DOI 推理

這項研究探討醫療專家與人文學者在辨識醫學生與ChatGPT生成文本的能力。研究於2023年5月至8月進行,35位專家分析了兩篇醫學主題的文本,並被要求找出AI生成的部分。結果顯示,專家們在70%的情況下正確識別AI文本,兩組專家之間差異不大。雖然內容錯誤影響不大,但冗餘、重複和連貫性等風格特徵對他們的判斷至關重要。研究建議未來可在不同學術領域進一步探討,以提升辨識能力。 相關文章 PubMed DOI 推理

這項研究分析大型語言模型(LLMs),特別是GPT-3.5和GPT-4 Turbo,對加熱煙草產品(HTPs)相關社交媒體訊息的情感分析效果。研究分析了1,000則訊息,結果顯示GPT-3.5在Facebook的準確率為61.2%,Twitter為57%;而GPT-4 Turbo則在Facebook達到81.7%,Twitter為77%。即使只用三個回應,GPT-4 Turbo的準確率也可達99%。研究指出,LLMs在分析HTPs討論情感上有效,但不同情感類別的準確性差異可能會影響整體結果,未來需進一步探討。 相關文章 PubMed DOI 推理

這項研究評估了針對青少年心理健康的對話代理(CAs)或聊天機器人的現狀。研究人員找到39篇相關的同行評審文章,發現許多CAs主要是基於專家知識設計,缺乏青少年的意見,且技術仍在早期階段,安全性不足。青少年使用者對CAs在討論敏感話題的可用性表示欣賞,但覺得內容有限。大部分研究未解決用戶數據的隱私問題。這項回顧強調了研究人員、青少年和專家的合作必要性,並呼籲在設計中重視隱私與安全。總體而言,仍需更多研究來驗證這些工具的有效性。 相關文章 PubMed DOI 推理