LLM 相關三個月內文章 / 第 70 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

人工智慧(AI)在醫療領域的應用越來越受到重視,特別是像ChatGPT這樣的工具。最近一項研究比較了學術來源與ChatGPT生成的唇顎裂(CL/P)手術資訊,重點在準確性、全面性和清晰度。結果顯示,60%以上的整形外科醫生和非醫療專業人士偏好ChatGPT的內容,認為其更全面且清晰。無論是ChatGPT還是學術資料,其可讀性均超過建議水平。這顯示AI工具在醫療資訊生成上具潛力,但仍需專家評估其品質。 相關文章 PubMed DOI

這項元研究評估了放射學期刊中關於大型語言模型(LLMs)使用的政策。結果顯示,43.9%的期刊有相關政策,其中43.4%針對作者,29.6%針對審稿人,25.9%針對編輯。許多期刊討論了LLM的使用細節、名稱、驗證及角色,但僅少數提及其潛在影響。研究指出,LLM政策的存在與出版商有顯著關聯,並建議制定共享的報告指導方針,以提升科學寫作的質量與透明度,強調目前的探索仍需進一步發展。 相關文章 PubMed DOI

本研究探討生成式人工智慧工具ChatGPT對牙科研究寫作的影響,分析2018至2024年間在PubMed的牙科出版物摘要。研究對299,695篇摘要進行關鍵字分析,發現ChatGPT發布前每10,000篇論文中出現的「信號詞」頻率為47.1,發布後增至224.2,增幅顯著。其中「delve」的使用增幅最大。研究顯示生成式人工智慧在牙科研究中的採用逐漸增加,雖然可能提升生產力,但也引發對偏見和不準確性的擔憂,強調需制定明確指導方針以確保學術出版的責任性。 相關文章 PubMed DOI

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題,並由六位專業醫師評估其準確性和可讀性。結果顯示,ChatGPT 準確回答 9 題(45%),Gemini 12 題(60%),Bing 6 題(30%)。但在準確性和可靠性方面,ChatGPT 只有 6 題(30%)同時符合,Gemini 8 題(40%),Bing 3 題(15%)。可讀性方面,ChatGPT 得分最低(29),顯示其可讀性差。研究指出,這些模型的回答常常不準確、不可靠或難以閱讀。 相關文章 PubMed DOI

這篇文章探討大型語言模型(LLMs)對醫學教育的影響,指出其潛在好處如提升教學品質、個性化學習及增強臨床技能訓練等。然而,也提到挑戰,包括資訊準確性、過度依賴科技、缺乏情感智慧,以及隱私和數據安全的倫理問題。為了有效整合LLMs,教育者需具備適應性,培養批判性思維,並重視實踐經驗,以培養既懂科技又具職業倫理的醫療專業人員,應對未來挑戰。 相關文章 PubMed DOI

這篇論文評估像 ChatGPT 這類聊天機器人在科學寫作中的影響,探討其潛在好處與倫理問題。ChatGPT 能自動生成草稿,可能簡化研究者的寫作過程,但也帶來了區分人類與 AI 生成文本的挑戰,特別是在著作權和科學溝通的完整性上。檢測真實作者身份的複雜性需要仔細的批判性閱讀與分析。這項研究旨在提供關於將 AI 工具整合進學術寫作的優缺點的平衡觀點。 相關文章 PubMed DOI

下背痛(LBP)是一個常見的健康問題,可能隱藏著嚴重疾病的風險,這些疾病通常伴隨著「紅旗」症狀。本研究評估了ChatGPT-3.5和Google Bard在回答與紅旗相關的下背痛問題的準確性。共開發70個問題,結果顯示兩者在單一症狀和多重症狀的回答上都表現良好,且沒有顯著差異。AI系統能有效傳達病情的嚴重程度,顯示出其在健康資訊傳遞中的潛力,隨著技術進步,這一潛力將更為明顯。 相關文章 PubMed DOI

這項研究介紹了一個名為RareDxGPT的增強版ChatGPT,專門用於診斷罕見疾病。雖然單一罕見疾病的發病率低,但全球約有4億人受到影響,診斷時間可長達五年。RareDxGPT整合了717種罕見疾病的資料,並採用檢索增強生成(RAG)方法進行分析。研究結果顯示,RareDxGPT在各種提示下的準確率均高於標準的ChatGPT 3.5,顯示出其在協助診斷罕見疾病方面的潛力。 相關文章 PubMed DOI

本研究透過文獻計量分析,探討人工智慧(AI)在護理教育中的應用熱點與趨勢。分析截至2023年10月的Web of Science文獻,發現過去三年內相關文章數量持續上升,主要貢獻者為美國、新加坡國立大學及大田純教授。研究識別出十個高頻關鍵詞,並將熱點分為三大領域:AI增強的模擬機器人、機器學習與數據挖掘,以及自然語言處理。未來研究將聚焦於擴展AI應用、評估教育成果及處理倫理問題,建議探索技術應用及跨學科合作,以促進AI在護理教育的發展。 相關文章 PubMed DOI

這項研究探討AI聊天機器人在醫療實踐中的可靠性,並引入了參考幻覺評分(RHS)來評估引用的真實性。研究測試了六個聊天機器人,結果顯示Bard未提供任何參考文獻,而ChatGPT 3.5和Bing的RHS得分最高(11),顯示引用質量較佳。相對而言,Elicit和SciSpace得分最低(1),Perplexity則在中間(7)。研究發現61.6%的參考文獻與提示相關性低,顯示幻覺問題明顯,強調需要可靠的參考評估工具以提升AI在醫療研究中的真實性。 相關文章 PubMed DOI