原始文章

這項研究針對分類中文醫學摘要的挑戰,對改善醫學資料庫的搜尋和文獻回顧非常重要。由於缺乏合適的數據集,我們生成了三個訓練數據集和一個測試數據集,以提升分類準確性。數據集 #1 來自 PubMed 的 15,000 條翻譯摘要,數據集 #2 和 #3 則是從 40,000 條中文醫學摘要中生成的。透過 SBERT 嵌入進行語義分析,我們的模型在分類效果上顯著提升,SBERT-DocSCAN 在數據集 #3 上達到最高準確率 91.30%。這項研究不僅生成了有價值的數據集,還證明了模型的有效性。 PubMed DOI


站上相關主題文章列表

研究比較了用語言模型訓練的分類器在合成與真實臨床註記上的表現,以辨識急性腎衰竭。結果顯示,使用這兩種訓練數據在檢測急性腎衰竭時表現相似,顯示合成數據可能已足夠,不需從受保護健康資訊中取得訓練數據。 PubMed DOI

醫療專家不足是個大問題,但機器學習可輔助篩檢和診斷。建立龐大且具代表性的資料集成本高,因此使用大型語言模型生成自閉症相關行為的合成範例。目標是透過標記符合自閉症標準的行為提高模型準確性。評估顯示,合成資料有高比例的正確行為範例-標記對。增加資料集可提高召回率,但會降低精確度。未來研究將探討合成資料特徵對機器學習結果的影響。 PubMed DOI

LLMs在臨床應用上有潛力,但可能產生幻覺回應,對患者安全有風險。為此,開發了MedGPTEval評估系統,用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳,具穩健性和專業能力。MedGPTEval提供全面框架,用於評估醫學領域的LLMs聊天機器人,並提供開源數據集和基準。 PubMed DOI

在家庭照護中運用機器學習辨識健康問題對成效至關重要。研究指出,透過GPT-4生成虛擬患者-護士對話資料並自動標記問題,結合真實與虛擬資料,機器學習分類器在辨識健康問題上有更佳表現。這項研究凸顯了虛擬資料在醫療分析中的潛力,對提升家庭照護患者複雜病況問題檢測的準確性與效率有所助益。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月,訓練聊天機器人根據文獻創建10個摘要,並與現有摘要進行比較。五位外科醫生評審發現,AI生成的摘要與人類撰寫的質量相當,評分中位數相似。雖然版本1的評分接近評審者的評價,但版本2則偏向給予較高分數。整體而言,研究顯示AI能有效生成難以區分的醫學摘要,顯示其在醫學研究中的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在中文生物醫學命名實體識別(BNER)任務的表現,這領域的研究相對較少。作者評估了多個LLMs,包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4,使用真實的中文電子病歷數據集及公共數據集。結果顯示,雖然LLMs在零樣本和少樣本情境下有潛力,但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型,而GPT-3.5在CCKS2017數據集上表現最佳,但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究,顯示其潛力並為未來應用提供指導。 PubMed DOI

這項研究探討了開源大型語言模型(LLMs),如LLaMA和Alpaca,在早期COVID-19疫情期間的醫院員工調查中進行數據增強。研究分為兩步:首先用LLM生成合成數據,然後用三種分類器對這些數據進行主題分類。最佳結果來自LLaMA 7B,設定溫度0.7,生成100個合成數據點,結合RoBERTa進行分類,平均AUC達0.87。結果顯示,開源LLM能顯著提升醫療領域小型數據集的文本分類表現,並強調隱私與倫理考量的重要性,指向未來醫學教育和病人護理的研究方向。 PubMed DOI

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據,以解決隱私法規和數據稀缺的問題。研究分為兩個階段:第一階段根據13個臨床參數創建了6,166個案例的結構化數據集,數據合理且準確;第二階段則利用真實的圍手術期數據集VitalDB生成數據,結果顯示92.31%的參數與VitalDB相似,且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據,未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

這項研究探討將大型語言模型(LLMs),如GPT,融入傳統中醫(TCM)的可能性,旨在現代化和全球化這個領域。中醫因專業術語和診斷方法的複雜性,面臨數位化和個性化的挑戰。雖然LLMs在語意理解上有潛力,但在準確性和邏輯推理上仍有不足,可能產生不可靠的結果。研究回顧現有文獻和實證數據,評估LLMs在中醫的潛在好處與挑戰,並討論未來的發展方向。 PubMed DOI

這項研究針對低資源語言,特別是愛沙尼亞語,開發命名實體識別(NER)模型,目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據,作者提出三步驟方法:首先,利用本地訓練的GPT-2生成合成醫療數據;接著,使用GPT-3.5-Turbo和GPT-4對這些數據進行標註;最後,微調NER模型並測試真實醫療文本。研究結果顯示,藥物提取的F<sub>1</sub>分數為0.69,程序提取為0.38,顯示出在藥物識別上的有效性,並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI