LLM 相關三個月內文章 / 第 121 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了ChatGPT-4在類似ARRT認證考試的練習題上的表現,使用了200道選擇題,總共進行了3000次測試。整體準確率為80.56%,文字型問題表現較佳(86.3%),影像型問題則較差(45.6%),且影像問題的回答時間較長。不同領域的表現差異明顯,安全性72.6%、影像製作70.6%、病人護理67.3%、程序53.4%。研究顯示ChatGPT-4在ARRT題庫上表現不錯,但仍需進一步研究與實際考試結果的關聯,影像處理的進步對教育應用也很重要。 相關文章 PubMed DOI

這項研究探討如何利用提示工程來映射測試問題,並評估ChatGPT與人類教師的有效性。研究分析了139個來自藥物治療課程的測試問題,三位教師將這些問題對應到模組目標及藥學教育標準,並確立「正確答案」。結果顯示,ChatGPT成功映射到「正確答案」的比例為68.0%,且在20.1%的案例中至少匹配到一位人類教師的回應,總體一致性達88.1%。研究強調了提示工程在提升大學評估及課程委員會測試問題映射效率的潛力。 相關文章 PubMed DOI

這項研究探討了人工智慧(AI)在神經外科手術文檔的應用,分析了36份手術記錄,並利用ChatGPT 4.0撰寫記錄。研究團隊評估了144份記錄,結果顯示AI生成的記錄在準確性(4.44)和組織性(4.54)上表現良好,但內容得分較低(3.73)。可讀性方面,AI記錄的複雜度較高,顯示其在提升神經外科文檔效率上有潛力,但仍需改善內容質量。 相關文章 PubMed DOI

這項研究探討了將人工智慧,特別是ChatGPT,融入護理教育的影響,重點在護理學生的倫理決策和臨床推理。研究於2023年9月進行,99名護理學生被分為兩組:一組使用ChatGPT,另一組則依賴傳統教科書。結果顯示,對照組在倫理標準和臨床推理上表現較佳。實驗組的反思文章指出AI輔助的可靠性較低,但時間效率有所提升。研究建議結合AI與傳統方法的混合教育,以增強護理學生的決策能力。 相關文章 PubMed DOI

這項研究全面評估了多款AI聊天機器人(如ChatGPT®、Bard®、Gemini®、Copilot®和Perplexity®)生成的醫療資訊的可讀性和質量。結果顯示,Bard®的可讀性最佳,而Gemini®最難閱讀。所有聊天機器人的回應都超過了建議的六年級閱讀水平,顯示病人教育材料的可及性需改進。雖然Perplexity®在質量評估中得分最高,但Gemini®的整體質量得分最佳。這強調了確保AI生成的健康資訊既易讀又高質量的重要性,以有效教育病人。 相關文章 PubMed DOI

這項研究評估了ChatGPT在提供甲狀腺癌資訊的準確性和充分性,包括管理方式及情感支持。結果顯示,ChatGPT對甲狀腺癌的資訊掌握良好,正確率達76.66%,但在案例管理上表現不佳,建議多為一般性而非個別化。在情感支持方面,則提供了實用的指導,幫助患者及照顧者適應新診斷。總體來看,ChatGPT在資訊提供上能力中等,但情感支持方面表現有效。這是首個針對ChatGPT在此醫療背景下能力的研究。 相關文章 PubMed DOI

這項研究探討了一種三層篩選方法,利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次:研究設計、目標患者及介入措施。結果顯示,GPT-4在敏感性和特異性上表現良好,顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域,以評估其更廣泛的有效性。 相關文章 PubMed DOI

這項研究探討了深下腹皮瓣(DIEP)乳房重建的資訊質量,並比較了社交媒體平台(SMPs)與大型語言模型(LLMs)如ChatGPT和Google Bard的內容。分析了50個英語和西班牙語的視頻,結果顯示LLMs的資訊質量明顯較高,ChatGPT和Google Bard的平均DISCERN分數分別為54和61.17,屬於良好質量。而SMPs的得分則低得多,顯示38%的視頻由非醫療作者製作,突顯了可靠資訊的缺口。研究強調學術整形外科醫生需提供高質量資訊以改善病患教育。 相關文章 PubMed DOI

這項研究探討了使用GPT-4模型,透過與模擬病人聊天機器人的互動,為醫學生提供病史採集技巧的反饋。研究對象為三年級醫學生,分析了106次對話中的1,894個問答對。結果顯示,GPT-4的回應在99%以上是醫學上合理的,且與人類評分者的協議幾乎完美(Cohen κ=0.832)。不過,在45個反饋類別中,有8個類別出現差異,顯示模型評估可能過於具體或與人類判斷不同。總體而言,研究認為GPT-4在提供結構化反饋上有效,並建議在醫學教育中謹慎整合AI反饋機制。 相關文章 PubMed DOI

哨兵系統是美國FDA用來監控藥物安全的重要工具,透過臨床數據來指導藥物標籤和安全通訊。然而,觀察性數據的可靠性常受到挑戰。最近,大型語言模型(LLMs)的進展為解決這些問題提供了新機會,能從電子健康紀錄中識別不良事件並支持流行病學研究。不過,LLMs的準確性依賴於有效的提示工程,且其基礎設施在醫療系統中並不普遍,可能影響數據分析的公平性。此外,LLMs可能產生不準確的信息,導致假陽性,影響監管評估。因此,雖然LLMs有潛力改善上市後監測,但仍需努力確保公平性和準確性。 相關文章 PubMed DOI