原始文章

最近生成對抗網絡(GANs)和大型語言模型(LLMs)的進展,提升了醫療數據的生成與增強,對機器學習應用至關重要,尤其在數據隱私受到關注的情況下。研究評估了多種合成數據生成(SDG)方法的有效性,並以隨機森林為基準,分析其在下游任務中的表現。結果顯示,統計方法如synthpop在各種情況下表現優於深度學習方法,特別是在小型數據集上。研究強調特徵與目標變量的相關性對模型效用影響更大,synthpop顯示出更高的穩健性。 PubMed DOI


站上相關主題文章列表

這篇論文討論了生成式人工智慧在醫療保健上的應用,包括診斷、藥物研發、虛擬健康助手、醫學研究和臨床決策。它強調整合生成式AI到醫療系統的優勢與挑戰,並強調解決安全和隱私問題的重要性。這研究提供未來發展生成式AI系統在醫療上的參考,也為考慮採用這些解決方案的組織提供了洞見。 PubMed DOI

這篇論文探討基於變壓器的大型語言模型(LLMs)在生成合成表格健康數據的有效性,並與生成對抗網絡(GANs)進行比較,這對遵循隱私法規的醫療研究非常重要。研究分析了Pythia LLM Scaling Suite,模型參數從1400萬到10億,結果顯示較大的LLM在性能上優於GAN,甚至最小的LLM也能達到相似效果。此外,訓練數據集大小與模型性能呈正相關。論文還討論了在醫療領域實施LLM的挑戰與考量。 PubMed DOI

這項研究系統性回顧了生成性大型語言模型(LLMs)在臨床環境,特別是電子健康紀錄(EHRs)的應用。儘管自然語言處理技術進步,LLMs在臨床實踐中的整合仍有限,面臨多重挑戰。研究分析了自2023年以來的76篇相關文獻,發現包括提示工程的使用、少數多模態數據的應用、評估指標的多樣性,以及臨床決策中的偏見和幻覺等問題。未來需改進計算技術和標準化評估,以提升LLMs在醫療中的可靠性。總之,LLMs在病人護理上有潛力,但仍需克服重大障礙。 PubMed DOI

這項研究探討了大型語言模型(LLMs),如ChatGPT-4o、ChatGPT-3.5和Google Gemini,在輔助放射學研究中的效能。進行了兩個實驗: 1. **生物統計學與數據視覺化**:測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳,正確回答7個問題,且生成的程式碼錯誤較少。 2. **深度學習**:評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼,並透過互動修正錯誤。 總體而言,LLMs對放射學研究有幫助,但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

這篇論文探討基因數據在疾病診斷與治療中的重要性,特別是癌症研究,並指出將這些數據整合進臨床護理的挑戰,如電子健康紀錄的結構、保險成本及基因結果的可解釋性。研究也提到人工智慧(AI)和大型語言模型(LLMs)在解決這些問題上的潛力。儘管AI在醫學研究中的成功有限,但基於大量數據訓練的LLMs在基因分析上顯示出希望。研究評估了GPT模型在基因表達數據的預測能力,並與傳統機器學習方法進行比較,以探討其在預測癌症亞型的潛力。 PubMed DOI

隨著醫療保健對先進分析的需求增加,合成健康數據的使用變得愈加重要,尤其是在獲取真實健康數據的挑戰下。大型語言模型(LLMs)的進展為生成合成健康數據提供了新機會,但也帶來潛在風險。本文綜述了合成健康數據生成(SHDG)及LLM的研究,探討生成對抗網絡等機器學習模型的現狀與局限性。SHDG面臨的挑戰包括評估指標、數據效率、健康公平等,雖然LLMs在某些方面顯示潛力,但深入研究其優缺點仍然至關重要。 PubMed DOI

人工智慧(AI)和機器學習(ML)在醫學領域的發展迅速,醫療人員需了解這些技術及其統計原則。特別是在病理學中,AI/ML能利用大量數據。生成式AI透過大型語言模型,正改變醫療實踐。雖然生成式和傳統機器學習在統計指標上有相似之處,但生成式AI有獨特指標如困惑度和BLEU分數,醫療人員可能不熟悉。本文比較這兩者的統計指標,幫助醫療專業人員更好應對未來挑戰。 PubMed DOI

這篇論文介紹了FairPlay,一種新穎的合成數據生成方法,利用大型語言模型來解決臨床結果預測中的挑戰,特別是針對不平衡數據集和公平治療的需求。FairPlay生成現實且匿名的合成病人數據,改善代表性並增強數據集,提升算法性能,減少預測偏見,並保持隱私。實驗結果顯示,FairPlay顯著提升死亡預測的F1分數,最高可提高21%,且有效縮小不同子群體的性能差距,展現出一致的改善。 PubMed DOI

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據,以解決隱私法規和數據稀缺的問題。研究分為兩個階段:第一階段根據13個臨床參數創建了6,166個案例的結構化數據集,數據合理且準確;第二階段則利用真實的圍手術期數據集VitalDB生成數據,結果顯示92.31%的參數與VitalDB相似,且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據,未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

這項研究探討如何將電子健康紀錄(EHRs)與自然語言處理(NLP)及大型語言模型(LLMs)結合,以改善醫療數據管理和病人照護。研究使用MIMIC III數據集,採用GPT-3.5、GPT-4等模型生成符合HIPAA要求的合成病人紀錄。結果顯示,基於關鍵字的方法在隱私保護上風險較低,且保持良好性能,建議未來可考慮使用虛擬的PHI來提升實用性與隱私保護。 PubMed DOI