LLM 相關三個月內文章 / 第 58 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究提出了一種簡化的檢索器,利用BioBERT的上下文詞嵌入來搜尋人類表型本體(HPO),提升大型語言模型在標準化表型術語的準確性。與傳統依賴明確術語定義的方法不同,我們的方法讓GPT-4o在《線上孟德爾遺傳學手冊》的臨床摘要中,標準化準確率從62%提升到85%。這不僅顯示出顯著的準確性提升,還提供了一種比複雜檢索系統更有效的替代方案,顯示其在其他生物醫學術語標準化任務中的潛力。 相關文章 PubMed DOI 推理

這項研究探討實驗室檢測結果對大型語言模型(LLMs)在醫學鑑別診斷(DDx)準確性的影響。研究人員從50個病例報告中創建臨床小插曲,評估了五個LLMs的表現,包括GPT-4、GPT-3.5等。結果顯示,加入實驗室數據可提高DDx準確性多達30%。其中,GPT-4表現最佳,Top 1準確率達55%,寬鬆準確率79%。特別是GPT-4和Mixtral的改進顯著,這些模型能有效解讀肝功能和代謝面板等檢測結果。 相關文章 PubMed DOI 推理

Astro-QA 資料集是一個專為天文學問答設計的新基準,包含 3,082 個中英文問題,涵蓋天體物理學、天文測量學和天體力學等領域。它提供標準答案和相關資料以便評估。為了評估大型語言模型(LLMs)的表現,推出了 DGscore 指標,考量問題類型和難度。這個資料集已在 27 種 LLMs 上測試,顯示其在指令遵循、知識推理和自然語言生成方面的有效性,特別是在天文學領域。此研究旨在增進對 LLMs 在天文學的理解與發展。 相關文章 PubMed DOI 推理

電神經肌肉圖譜學起源於19世紀初,結合了神經圖譜學和肌肉圖譜學。關鍵人物如魯姆科夫推動了電流學的發展,並進行了電刺激實驗。隨著杜申的法拉第電刺激和布倫納的電流極性法改進,電診斷技術逐漸標準化。第一次世界大戰後,雙極方法和反射記錄被引入,20世紀初的技術進步使得神經動作電位的繪製成為可能。1950年代,肌電圖設備商業化,吸引了新一代神經科學家的關注。 相關文章 PubMed DOI 推理

這項研究探討大型語言模型(LLMs)如何理解自我一致性,重點在於它們在回應中保持邏輯和上下文一致的能力。作者提出了一個名為 S²AF 的框架,透過自我提問和回答的機制,讓 LLMs 能夠自主生成、提問、回答並評估輸出。研究顯示,LLMs 在理解自我一致性方面的能力各有不同,並能透過自身輸出提升表現,這稱為「自我增強前饋」。實驗結果支持這些結論,顯示模型在不同推理情境中對知識關係的理解差異。 相關文章 PubMed DOI 推理

這項研究針對低資源語言,特別是愛沙尼亞語,開發命名實體識別(NER)模型,目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據,作者提出三步驟方法:首先,利用本地訓練的GPT-2生成合成醫療數據;接著,使用GPT-3.5-Turbo和GPT-4對這些數據進行標註;最後,微調NER模型並測試真實醫療文本。研究結果顯示,藥物提取的F<sub>1</sub>分數為0.69,程序提取為0.38,顯示出在藥物識別上的有效性,並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 相關文章 PubMed DOI 推理

生成式人工智慧,特別是大型語言模型,正逐漸在生物醫學領域中普及,應用於文本處理任務如分類和資訊擷取。文章強調這些模型的主要功能是生成非結構化文本,並回顧歷史及現有的文本生成方法,討論評估技術。臨床應用方面,這些模型能創建高品質的臨床筆記和合成文本,但也提到潛在風險,如過度自信和偏見可能造成的傷害。 相關文章 PubMed DOI 推理

這項研究探討醫學生在臨床案例評估中使用不同的臨床決策支持系統(CDSS)表現。學生分為三組,分別使用臨床實踐指導方針(CPG)、線上資料庫(OR)和ChatGPT。結果顯示,使用ChatGPT的組別回答速度較快,但在準確性上,CPG表現最佳。研究強調在醫學教育中有效使用大型語言模型(如ChatGPT)的潛在好處與風險,並建議應加強相關訓練,以降低誤用風險。 相關文章 PubMed DOI 推理

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛,許多人會在就醫前尋找健康資訊。研究發現,這三款聊天機器人的可讀性均超過六年級水平,其中Gemini最佳。質量方面,Gemini得分較高,而Perplexity在可靠性評估中表現較好。總體來說,這些聊天機器人的回應難以閱讀,且可靠性和質量較低,無法取代專業醫療諮詢,建議改善可讀性並加強專家監督。 相關文章 PubMed DOI 推理

這項研究展示了利用大型語言模型(LLMs)如ChatGPT來挖掘病患評論的潛力,幫助更好理解病患的醫療需求。研究人員分析了來自haodf.com的504,198則評論,並開發了情感分析模板,將病患關注點分為三大領域。結合ChatGPT的思考鏈,他們取得了優異的表現,精確度達0.944,召回率0.884,F1分數0.912,超越了ChatGPT-4o的表現。這種方法不僅增進了對病患需求的理解,還有助於改善醫療資源配置和病患體驗,未來可應用於其他LLMs以推進醫療管理。 相關文章 PubMed DOI 推理