LLM 相關三個月內文章 / 第 6 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究探討了ChatGPT在醫療領域的優勢及其擴展潛力。研究分為三個階段,首先進行74項研究的系統性回顧,找出11個關鍵主題。接著,專家利用灰色SWARA方法對這些優勢進行排序,發現臨床決策、醫學診斷、醫療程序及病人中心護理最為重要。結果顯示,ChatGPT在醫療資訊及基礎設施方面特別有用,並指出其在醫療資訊領域的增長潛力大於直接臨床介入。 相關文章 PubMed DOI

這項研究探討心理健康專家對大型語言模型(如ChatGPT)整合進心理健康實務的看法,透過對21位中國專業人士的訪談,發現四個主要主題: 1. **實務改革**:LLMs可提升心理健康服務的可及性與效率。 2. **科技鴻溝**:專家擔心誤導資訊及使用者風險。 3. **整合條件**:需培訓、制定指導方針,並保持透明。 4. **未來期望**:希望合理分配工作,持續改善技術。 研究顯示LLMs在心理健康領域的潛力與挑戰,為機構提供實施與管理的建議。 相關文章 PubMed DOI

這篇論文探討了傳統大型語言評估的限制,特別是在聽力和口語方面。聽力評估常無法真實反映互動能力,而口語則受限於任務格式。雖然自動化評估有潛力,但仍面臨挑戰。論文提出利用大型語言模型來增強自動化題目生成,創造更複雜的評估內容。具體而言,為Duolingo英語測試開發的互動聽力任務能更真實地評估考生的對話能力。研究顯示,這種方法有效且能改善語言測試中的互動能力評估。 相關文章 PubMed DOI

這項研究評估了GPT-4與GPT-3.5在耳鼻喉科考試問題上的表現。研究使用了150個來自BoardVitals的問題,結果顯示標準的GPT-4正確率為72.0%,而專為耳鼻喉科設計的自訂GPT-4模型則達到81.3%。相比之下,GPT-3.5的正確率僅51.3%。自訂模型的表現顯著優於標準模型,但兩者在較難問題上表現都有所下降。整體來看,GPT-4在這情境下表現優於GPT-3.5,自訂模型則進一步提升準確性,顯示其在醫學教育中的潛力。 相關文章 PubMed DOI

這項研究探討了ChatGPT在耳鼻喉科領域生成研究想法的潛力,將提示分為七個子專科,並評估其在系統性回顧中的表現。雖然ChatGPT在創造獨特的系統性回顧主題上有些困難,但所產生的想法通常具可行性和臨床相關性。研究建議未來應聚焦於ChatGPT在不同方法論及耳鼻喉科特定領域中生成問題的能力,顯示出人工智慧在醫學研究中的限制與潛力。 相關文章 PubMed DOI

這項研究評估了大型語言模型(LLMs)在急性缺血性中風(AIS)患者的手術記錄中提取數據的有效性。分析了382份手術記錄,重點在30份,以指導LLMs提取關鍵特徵。六種LLMs的表現良好,平均準確率達95.09%,整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出,準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師,顯示出在AIS治療中改善臨床數據管理的潛力。 相關文章 PubMed DOI

人工智慧(AI)在解剖學教學中的應用引起了廣泛關注。近期研究比較了三款知名的AI聊天機器人:ChatGPT、Gemini和Claude,針對23個問題進行測試。結果顯示,ChatGPT的準確率最高,達100%;Claude則提供了最全面的回應。相對而言,Gemini的表現較差,準確率僅60%,且科學細節不足。研究建議在解剖學教育中使用Claude和ChatGPT,但不建議目前形式的Gemini。 相關文章 PubMed DOI

這項研究開發了一個基於BERT的大型語言模型,目的是透過整合MRI數據、文本報告和數值測量,提升腰椎疾病的診斷準確性。研究評估MRI影像的分割質量,並使用卷積神經網絡(CNN)提取關鍵特徵,如腰椎前凸角和椎間盤高度。數據集涵蓋28,065名患者,並透過CNN後處理精煉診斷標準。模型在514個經專家驗證的案例上進行外部驗證,顯示出高達0.9的分類性能,顯著提升腰椎疾病的診斷精度,支持更準確的治療計劃。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs)在優化醫療工作流程的應用,特別是面對經濟和計算挑戰。研究人員使用真實病患數據,評估了十種不同的LLM,進行超過30萬次實驗。結果顯示,隨著問題和臨床筆記數量增加,模型表現會下降。高容量模型如Llama-3-70b和GPT-4-turbo-128k能有效處理最多50個任務,但超過後表現下降。經濟分析指出,使用串接方式可在50個任務時實現高達17倍的成本降低,顯示LLM在臨床環境中的限制及提升成本效率的潛力。 相關文章 PubMed DOI

人口健康倡議常透過冷接觸來解決預防性護理的缺口,如篩檢和疫苗接種。針對不同病患族群量身定制訊息是一大挑戰,因為傳統A/B測試需大量樣本。隨著大型語言模型(LLMs)的興起,分層測試結合LLMs與人類代理成為可能,關鍵在於如何識別需要不同人類支持的病患。研究顯示,序列多重分配隨機試驗(SMART)在個性化溝通上比A/B測試更具成本效益,特別在檢測異質性治療效果時,尤其在後期隨機化階段更為明顯。 相關文章 PubMed DOI