原始文章

從生物醫學文獻中提取準確資訊相當複雜,因為這個領域跨學科且術語專業。早期的自然語言處理(NLP)方法常常無法掌握語言的細微差別,導致錯誤答案。隨著變壓器模型的出現,大型語言模型(LLMs)在問答任務中表現改善,但仍面臨挑戰,經常產生「幻覺」信息。我們的研究透過增強檢索架構來提升LLMs在生物醫學問答中的表現,並開發了問答機器人WeiseEule,強調用戶查詢信號的重要性,改善了回應的準確性和相關性。 PubMed DOI


站上相關主題文章列表

OpenMedLM是一個開源的醫學語言模型,在醫學基準測試中表現優異,且無需大量微調。透過提示策略,OpenMedLM在三個醫學語言模型基準測試中取得領先地位,超越其他模型。這顯示開源基礎模型在提升醫療任務表現方面具有潛力,同時也凸顯提示工程對於醫學應用中易用的語言模型的重要性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程,優化提示,提升回應質量。經過三次迭代後,臨床醫師對草擬回應的接受度從62%提升至84%,且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳,76%的病人無法分辨人類與LLM生成的回應。研究顯示,根據醫師和病人的反饋來精煉提示,能有效生成有用的醫療建議。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)提升系統性回顧(SRs)的效率,特別是在文章摘要和全文篩選上。研究分析了48,425個引用文獻和12,690篇文章,使用GPT4-0125-preview模型開發提示模板。結果顯示,優化後的提示在摘要和全文篩選上都達到高敏感度和特異性,且篩選速度快、成本低。研究建議這些創新對研究者和醫學領域人員非常有幫助,但也指出了一些限制,如僅針對免費文章及需進一步優化提示。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI

這項研究聚焦於醫療概念標準化(MCN),強調數據質量對其表現的重要性,並提出一個框架來提升數據質量,利用像ChatGPT這樣的大型語言模型。研究評估了MCN數據集的質量,並透過ChatGPT進行數據增強,分析生成數據的正確性。實驗探討數據質量對MCN模型的影響,並指出增強過程中的數據重複問題。最終,研究認為少樣本學習結合適當的上下文是提升MCN數據質量的有效方法,並提供了寶貴的見解。如需詳情,可參考提供的GitHub連結。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

這項研究發現,不同的提問方式會影響GPT回答牙科植體問題的品質。雖然所有模型都能給出不錯的答案,但用情境化提示時,治療相關問題的回答較不清楚、相關性也較低,不過引用資料的表現較佳。整體來說,GPT能提供實用資訊,但提問設計還有改進空間。 PubMed DOI

這篇研究比較了 GPT-3.5、GPT-4 和 Google Gemini 等大型語言模型在生物醫學文本中擷取蛋白質-蛋白質交互作用的能力。結果顯示,Gemini 1.5 Pro 表現最好,F1 分數最高達 90.3%。雖然還不如專業模型,但只要設計好提示詞,這些工具對生物醫學研究人員來說就很容易上手。 PubMed DOI

這項研究開發了一套用於提升核醫療診斷治療的聊天機器人架構,透過情境增強(RAG)讓大型語言模型能查找相關研究資料。測試五款主流LLM後發現,RAG能明顯提升答案品質,尤其CLAUDE 3 OPUS和GPT-4O表現最好。研究也提醒,目前問題範圍有限,未來應擴大題目多樣性並比較人類與AI的評分。 PubMed DOI