LLM 相關三個月內文章 / 第 65 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了大型語言模型(LLM)ChatGPT與人類面試官在對6到8歲兒童進行模擬訪談的效果。78名兒童中,40名由LLM訪談,38名由人類面試官訪談。結果顯示,無論是LLM還是人類,建議問題都能引導出更準確的信息。雖然LLM提問較少,但獲得的獨特正確信息更多,且錯誤信息較少。這顯示LLM能提出符合兒童訪談最佳實踐的問題,未來仍需進一步研究其在實際情境中的應用。 相關文章 PubMed DOI 推理

本研究探討生成預訓練變壓器(ChatGPT)在放射影像中分類股骨轉子周圍骨折的準確性。研究結果顯示,ChatGPT能根據修訂的AO/OTA分類系統將骨折分為穩定(A1)和不穩定(A2),其分類一致性(κ = 0.420)與骨科醫生相似,顯示中等可靠性。這表明ChatGPT可有效整合進臨床工作流程,並在數據收集上需求較低,對醫療應用具潛力。 相關文章 PubMed DOI 推理

EHRAgent是一個新提議的大型語言模型,旨在提升從電子健康紀錄(EHR)中檢索病人資訊的效率。臨床醫生常覺得這過程繁瑣且緩慢,通常需要數據工程師的協助。EHRAgent透過自然語言讓醫生自主生成和執行代碼,簡化查詢過程。它將複雜查詢分解為簡單動作,並結合醫學知識來提取正確紀錄。實驗顯示,EHRAgent在三個真實EHR數據集上成功率提升29.6%,顯示其在處理複雜臨床任務的有效性。 相關文章 PubMed DOI 推理

這項研究介紹了PromptLink,一個新框架,用來連結不同數據來源的生物醫學概念,解決命名慣例不同的問題。傳統方法如字串匹配和機器學習有其限制,而PromptLink則利用大型語言模型(LLMs)生成候選概念,並透過兩階段提示過程進行連結。第一階段提取生物醫學知識,第二階段則精煉預測以提高可靠性。實證結果顯示,PromptLink能有效連結電子健康紀錄和生物醫學知識圖譜的概念,且不需額外的先驗知識或訓練數據,源代碼已在GitHub上公開。 相關文章 PubMed DOI 推理

在當前數位時代,準確辨識氣候資訊的真偽非常重要,因為錯誤資訊會影響公眾認知和政策決策。本研究針對氣候聲明的事實查核挑戰,提出了Climinator,這是一個利用大型語言模型的工具。Climinator整合權威來源,透過獨特的辯論框架來增強自動化查核能力,提供可信且具上下文的分析。它能即時偵測錯誤資訊,促進有關氣候變遷的討論,展現人工智慧在環境對話和政策制定中的潛力。 相關文章 PubMed DOI 推理

這項研究探討了ChatGPT 4在透過書面文本評估人格特質的有效性,使用了兩個公開數據集,包含文本和基於五大人格模型的自我評估。研究目的是評估ChatGPT 4在十一點量表上預測人格特質的準確性,並與作者的自我評估進行比較。結果顯示,ChatGPT 4能中等程度推斷人格特質,但在判斷輸入適當性方面有困難。研究建議改進基準測試方法,以提升評估過程,並強調大型語言模型在人格評估中的潛力。 相關文章 PubMed DOI 推理

這項研究探討物聯網(IoT)和人工智慧(AI)在公共醫療中的應用,特別是針對乾眼症的檢測與管理。研究利用 OpenAI GPT-4.0 和 ERNIE Bot-4.0 API,分析 5,747 例模擬病人的投訴,並使用 BERT 模型將案例分類為緊急與非緊急。結果顯示,準確率從 80.1% 提升至 99.6%,但回應時間增加,導致用戶滿意度下降(從 95.5 降至 84.7),醫療質量滿意度卻上升(從 73.4 增至 96.7)。這強調了準確性與用戶滿意度之間的平衡,未來應優化提示結構以提升系統性能。 相關文章 PubMed DOI 推理

本研究探討如何透過檢索增強生成(RAG)提升大型語言模型(LLMs)對臨床指引的遵循性,特別針對加拿大放射學指引中的肝膽系統發現。研究建立自訂RAG架構,測試GPT-4o和o1-mini兩個模型,分析遵循率、可讀性及反應時間。結果顯示,啟用RAG後,GPT-4o遵循率從81.7%提升至97.2%,o1-mini則從79.3%提升至95.1%。RAG模型在可讀性上有所改善,反應時間略長但仍可接受。此方法顯示增強基於證據的護理潛力,值得在臨床中進一步驗證。 相關文章 PubMed DOI 推理

這項研究評估了五款流行的AI聊天機器人在回答牙科專科住院醫師考試中的修復牙科問題的效果。共測試126個問題,結果顯示Copilot的準確率最高(73%),其次是Gemini(63.5%)和ChatGPT-3.5(61.1%)。雖然AI模型可作為教育工具,但在修復牙科的可靠性上仍有待加強,尤其在可拆卸局部假牙的準確率最低(50.8%)。未來的技術改進有望提升其在牙科教育中的應用效果。 相關文章 PubMed DOI 推理

這項研究評估了幾種蛋白質大型語言模型(LLMs),如ESM2、ESM1b和ProtBERT,在預測酶功能方面的表現,並與傳統的序列比對方法BLASTp進行比較。雖然BLASTp通常表現較佳,但LLMs,特別是結合全連接神經網絡時,超越了傳統的一熱編碼模型。ESM2被認為是最有效的LLM,尤其在挑戰性註釋任務中表現突出。研究顯示,LLMs雖未達到BLASTp的黃金標準,但在序列同一性低的情況下,能有效預測難以註釋的酶的EC編號,並強調兩者可互補,提升酶的註釋效果。 相關文章 PubMed DOI 推理