原始文章

這項研究聚焦於醫療概念標準化(MCN),強調數據質量對其表現的重要性,並提出一個框架來提升數據質量,利用像ChatGPT這樣的大型語言模型。研究評估了MCN數據集的質量,並透過ChatGPT進行數據增強,分析生成數據的正確性。實驗探討數據質量對MCN模型的影響,並指出增強過程中的數據重複問題。最終,研究認為少樣本學習結合適當的上下文是提升MCN數據質量的有效方法,並提供了寶貴的見解。如需詳情,可參考提供的GitHub連結。 PubMed DOI


站上相關主題文章列表

從生物醫學文獻中提取準確資訊相當複雜,因為這個領域跨學科且術語專業。早期的自然語言處理(NLP)方法常常無法掌握語言的細微差別,導致錯誤答案。隨著變壓器模型的出現,大型語言模型(LLMs)在問答任務中表現改善,但仍面臨挑戰,經常產生「幻覺」信息。我們的研究透過增強檢索架構來提升LLMs在生物醫學問答中的表現,並開發了問答機器人WeiseEule,強調用戶查詢信號的重要性,改善了回應的準確性和相關性。 PubMed DOI

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI

這項研究探討如何透過提示工程提升ChatGPT在肺結節篩檢中生成電子病歷的能力。研究評估了ChatGPT在患者與醫療提供者口頭諮詢中創建電子病歷的表現,並將這技術整合到像微信小程序等實用工具中,方便患者就醫前使用。結果顯示,ChatGPT顯著提升了臨床環境中的工作流程效率和診斷過程。 PubMed DOI

大型語言模型(LLMs)如ChatGPT在醫療領域的應用引發了關於其改善醫療品質的討論。雖然這些模型能通過醫學考試,但作為自我診斷工具的有效性仍需評估。研究使用EvalPrompt方法測試ChatGPT在自我診斷中的表現,結果顯示其正確率僅31%,且專家與非專家的評估一致性低。儘管在缺失信息的情況下仍有61%的回應被認為正確,但整體表現未達及格標準。研究強調了LLMs的局限性,並呼籲需建立更全面的自我診斷數據集,以提升其在醫療中的可靠性。 PubMed DOI

這項研究探討了電子健康紀錄(EHRs)中非結構化醫療文本的標準化挑戰,因為這些文本格式不一致。約80%的EHR數據是非結構化的,作者使用大型語言模型(LLMs)來標準化這些文本,開發了四種策略,包括RAGnorm。研究評估了這些策略在三個SNOMED映射的病症術語數據集上的表現,結果顯示RAGnorm在所有數據集中的表現最佳,且在TAC2017任務中獲得88.01的微F1分數,顯示其在標準化生物醫學文本方面的潛力。 PubMed DOI

這項研究針對低資源語言,特別是愛沙尼亞語,開發命名實體識別(NER)模型,目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據,作者提出三步驟方法:首先,利用本地訓練的GPT-2生成合成醫療數據;接著,使用GPT-3.5-Turbo和GPT-4對這些數據進行標註;最後,微調NER模型並測試真實醫療文本。研究結果顯示,藥物提取的F<sub>1</sub>分數為0.69,程序提取為0.38,顯示出在藥物識別上的有效性,並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

這篇論文探討生物醫學文本中的命名實體識別(NER)挑戰,特別是在數據稀缺的情況下。作者指出現有數據增強方法的不足,可能會影響語義,且忽略多尺度句子特徵。為了解決這些問題,他們提出利用ChatGPT生成多樣化的數據,並採用動態卷積捕捉多尺度語義,結合PubMedBERT增強特徵表示。實驗結果顯示,這種方法在四個生物醫學NER數據集上表現優於現有模型,顯示出在數據增強和模型泛化上的有效性。 PubMed DOI

大型語言模型像 ChatGPT 正在改變重症醫學,能自動化病歷、協助決策、個人化溝通,還能整理非結構化資料。不過,目前還有資訊正確性、倫理和醫師AI素養等挑戰。結合傳統機器學習可降低風險,導入時要謹慎並加強醫師訓練,才能提升照護品質。 PubMed DOI

這篇研究比較專有和開源大型語言模型在臨床文本中做 token-level 罕見疾病命名實體識別的表現。研究發現,雖然用了多種技術,LLMs 在這類任務上還是有不少困難,並針對醫療應用提出改進建議。 PubMed

這項研究用 ChatGPT3.5 自動從電子病歷的出院摘要中擷取藥物資訊,解決了多語言和格式不一的問題。研究發現,few-shot 提示比 zero-shot 更準確,錯誤也較少。ChatGPT3.5 在命名實體辨識和文字擴充的 F1 分數分別達 0.94 和 0.87,更新版模型表現更好。結果證明大型語言模型能有效結構化藥物資料,提升資訊可用性。 PubMed DOI