LLM 相關三個月內文章 / 第 51 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

同行評審對科學研究的質量至關重要,尤其在醫學領域,因為研究結果直接影響病人照護。隨著出版量增加,評審者面臨的壓力也增大,可能導致評審延遲和質量下降。大型語言模型(如ChatGPT)能簡化評審過程,提供高效支持。這篇評論探討了LLMs在同行評審中的應用,包括初步篩選、評審者匹配、反饋支持和語言審查等。然而,使用LLMs也需注意偏見和隱私問題,必須建立指導方針,確保其輔助而非取代人類專業知識,以維持評審標準。 相關文章 PubMed DOI 推理

睡眠呼吸障礙(SDB),特別是阻塞性睡眠呼吸暫停症(OSA),因氣道阻塞影響健康,及早介入非常重要。本研究利用機器學習(ML)和大型語言模型(LLM),透過電子健康紀錄(EHR)來識別SDB。提出的DSS-LLM框架結合動態海鷗搜尋演算法與LLM,使用臨床數據進行特徵提取和預處理,最終達到98.91%的分類準確率,顯示出其在臨床篩檢中的潛力,期望能改善耳鼻喉科的決策與病人結果。 相關文章 PubMed DOI 推理

人工智慧(AI)在醫學上已經有很大進展,尤其是機器學習和大型語言模型,但在性醫學的應用還不夠深入。本研究透過MeSH關鍵字進行全面搜尋,總結AI在性醫學的現狀。研究者從PubMed和MEDLINE篩選出905篇文章,最終納入69篇進行系統性回顧。結果顯示,AI在診斷性傳播疾病、性功能障礙和不孕不育方面有效,並在預測性別和診斷性取向上有潛力。儘管AI提供可及性和保密性,但仍缺乏人類醫療提供者的同情心和專業知識,未來需進一步研究以發揮其潛力。 相關文章 PubMed DOI 推理

YouTube 是重要的醫療資訊來源,但許多影片內容不準確或有偏見。本研究探討大型語言模型(LLMs)評估醫療影片質量的能力。研究人員收集了專家評估過的影片,並讓二十個 LLMs 使用 DISCERN 工具進行評分。結果顯示,LLMs 的評分通常高於專家,且一致性範圍廣泛。加入評分指導方針後,模型表現有所改善。研究顯示某些 LLMs 能有效評估醫療影片質量,未來可作為獨立專家系統或增強傳統推薦系統,解決線上健康內容的質量問題。 相關文章 PubMed DOI 推理

這項研究分析了1,500則亞馬遜上關於熱門真空勃起裝置(VEDs)的評論,了解消費者的看法。使用GPT-4進行質性分析後,發現效果和使用者體驗是主要主題。安全問題在27%的評論中被提及,明確警告則出現於6.8%。電動VED因易用性和設計特徵受到青睞。高評價產品通常缺陷和故障報告較少。整體來看,對VED的情感偏正面,但強調病人教育以確保安全使用。 相關文章 PubMed DOI 推理

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果,並與人類分診人員進行比較。分析了2,658名病人的數據,結果顯示AI與人類的分診協議程度較低(kappa = 0.125)。在人類分診預測30天死亡率和生命救援需求方面,表現明顯優於AI(ROC分別為0.88對0.70及0.98對0.87)。這顯示雖然AI有潛力,但在急診分診中仍不如人類可靠,特別是對高風險病人的評估。 相關文章 PubMed DOI 推理

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現,並與人類考生進行比較。2024年10月,42名考生與26名使用GPT-4o的醫學生比較,結果顯示GPT-4o平均得分82.1%,遠高於考生的49.4%(p < 0.0001)。GPT-4o在放射學各子專科的真陽性率較高,假陽性率較低,僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美,而考生則中等。調查顯示參與者普遍使用複製和粘貼功能,73%的人尋求澄清。總體而言,GPT-4o在低階問題上表現優於人類考生,顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 相關文章 PubMed DOI 推理

美國健康系統藥學期刊(AJHP)現在會迅速在線上發布已接受的手稿,這是在最終格式化和作者校對之前。最近一項研究評估了四個大型語言模型(LLMs)——ChatGPT 4.0、Microsoft Copilot、Google Gemini 1.5 和 Meta AI,並將它們的藥物建議與重症成人的臨床指導方針進行比較。結果顯示,這些AI的回應準確性差異顯著,Microsoft Copilot 提供的正確建議比例最高,而Google Gemini則有最多不正確的回應。雖然這些AI顯示出潛力,但在重症護理的藥物建議上仍不夠準確。 相關文章 PubMed DOI 推理

這項研究探討大型語言模型(LLMs)在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs,並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示,LLMs在小型數據集上表現優於人類研究者,但在大型數據集上,由於類別不平衡,精確度下降。研究還發現,LLM與人類的結合能減少工作量並保持高敏感性,顯示自動化篩選可減輕研究者負擔。總體而言,LLMs有潛力提升系統性回顧的效率與質量,但仍需進一步驗證。 相關文章 PubMed DOI 推理

慢性共濟失調症是一組超過300種疾病,因其臨床和遺傳特徵多樣,診斷上相當困難。本研究提出利用人工智慧(AI)來協助診斷,開發了一個智慧虛擬助手。這個助手的診斷準確率高達90.9%,超越了21位神經科醫師和GPT-4的表現。虛擬助手平均只需14個問題和1.5分鐘就能提供診斷清單,效率遠高於醫師的19.4分鐘。研究顯示,這個助手不僅準確,還能成為神經科諮詢的有力工具,未來可能應用於其他疾病。 相關文章 PubMed DOI 推理