LLM 相關三個月內文章 / 第 23 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

觀察性健康數據科學與資訊(OHDSI)社群專注於利用真實世界醫療數據進行大規模研究。為了參與,必須將當地術語映射到OHDSI標準詞彙,並轉換為觀察性醫療結果夥伴關係共同數據模型(OMOP CDM)。在日本,儘管醫療科技先進,真實世界數據卻未被充分利用,因為國內術語系統與國際標準不一致。研究團隊使用大型語言模型(LLM)成功將日本藥品數據映射到RxNorm,並經專家驗證,這對藥物流行病學及相關研究非常有價值。 相關文章 PubMed DOI 推理

這項研究比較了兩個人工智慧平台,ChatGPT和Google Gemini,對於2022年國際過敏與鼻科共識聲明(ICAR-O)的準確性和一致性。研究將ICAR-O的42條指導方針轉換成問題,並分析了84個回應。結果顯示,ChatGPT的平均準確性得分為1.85,優於Gemini的1.48,且78.57%的回應與指導方針一致。雖然兩者在一致性和可信度上無顯著差異,但仍需進一步評估,以確保它們在臨床環境中的可靠性。 相關文章 PubMed DOI 推理

這篇論文探討「過度活躍的代理檢測」,指人類在進化中會快速將環境中的威脅歸因於潛在的代理者,例如樹葉沙沙聲可能代表掠食者。這種認知也影響人們與聊天機器人如ChatGPT和Gemini的互動,讓人們傾向擬人化這些技術。 作者提到,這種「機器中看到心智」的傾向在教育上有正反兩面。擬人化能提升學習動機,但也可能讓學生過度信任機器人提供的信息,忽略其不準確性。為了應對這些挑戰,論文建議應加強學生的數位素養,幫助他們更好地理解與聊天機器人的互動。 相關文章 PubMed DOI 推理

這項研究評估了自2000年以來發表的門診手術中心的臨床指導方針和專家共識的研究方法及報告質量,使用手動評估和大型語言模型(LLM)進行分析。共納入54份文件,結果顯示AGREE II的遵循率普遍偏低,最高為41.56%(表達清晰度),最低僅17.28%(發展嚴謹性)。LLM評估的文件得分顯著高於手動評估,顯示LLM在質量評估中具潛力,但手動評估仍是基礎方法。研究強調需改善相關指導方針的質量。 相關文章 PubMed DOI 推理

同行評審對科學研究的質量至關重要,尤其在醫學領域,因為研究結果直接影響病人照護。隨著出版量增加,評審者面臨的壓力也增大,可能導致評審延遲和質量下降。大型語言模型(如ChatGPT)能簡化評審過程,提供高效支持。這篇評論探討了LLMs在同行評審中的應用,包括初步篩選、評審者匹配、反饋支持和語言審查等。然而,使用LLMs也需注意偏見和隱私問題,必須建立指導方針,確保其輔助而非取代人類專業知識,以維持評審標準。 相關文章 PubMed DOI 推理

睡眠呼吸障礙(SDB),特別是阻塞性睡眠呼吸暫停症(OSA),因氣道阻塞影響健康,及早介入非常重要。本研究利用機器學習(ML)和大型語言模型(LLM),透過電子健康紀錄(EHR)來識別SDB。提出的DSS-LLM框架結合動態海鷗搜尋演算法與LLM,使用臨床數據進行特徵提取和預處理,最終達到98.91%的分類準確率,顯示出其在臨床篩檢中的潛力,期望能改善耳鼻喉科的決策與病人結果。 相關文章 PubMed DOI 推理

人工智慧(AI)在醫學上已經有很大進展,尤其是機器學習和大型語言模型,但在性醫學的應用還不夠深入。本研究透過MeSH關鍵字進行全面搜尋,總結AI在性醫學的現狀。研究者從PubMed和MEDLINE篩選出905篇文章,最終納入69篇進行系統性回顧。結果顯示,AI在診斷性傳播疾病、性功能障礙和不孕不育方面有效,並在預測性別和診斷性取向上有潛力。儘管AI提供可及性和保密性,但仍缺乏人類醫療提供者的同情心和專業知識,未來需進一步研究以發揮其潛力。 相關文章 PubMed DOI 推理

YouTube 是重要的醫療資訊來源,但許多影片內容不準確或有偏見。本研究探討大型語言模型(LLMs)評估醫療影片質量的能力。研究人員收集了專家評估過的影片,並讓二十個 LLMs 使用 DISCERN 工具進行評分。結果顯示,LLMs 的評分通常高於專家,且一致性範圍廣泛。加入評分指導方針後,模型表現有所改善。研究顯示某些 LLMs 能有效評估醫療影片質量,未來可作為獨立專家系統或增強傳統推薦系統,解決線上健康內容的質量問題。 相關文章 PubMed DOI 推理

這項研究分析了1,500則亞馬遜上關於熱門真空勃起裝置(VEDs)的評論,了解消費者的看法。使用GPT-4進行質性分析後,發現效果和使用者體驗是主要主題。安全問題在27%的評論中被提及,明確警告則出現於6.8%。電動VED因易用性和設計特徵受到青睞。高評價產品通常缺陷和故障報告較少。整體來看,對VED的情感偏正面,但強調病人教育以確保安全使用。 相關文章 PubMed DOI 推理

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果,並與人類分診人員進行比較。分析了2,658名病人的數據,結果顯示AI與人類的分診協議程度較低(kappa = 0.125)。在人類分診預測30天死亡率和生命救援需求方面,表現明顯優於AI(ROC分別為0.88對0.70及0.98對0.87)。這顯示雖然AI有潛力,但在急診分診中仍不如人類可靠,特別是對高風險病人的評估。 相關文章 PubMed DOI 推理