Constructing synthetic datasets with generative artificial intelligence to train large language models to classify acute renal failure from clinical notes.
使用生成人工智慧建立合成數據集，以訓練大型語言模型，從臨床記錄中分類急性腎衰竭。 J Am Med Inform Assoc 2024-04-16

研究比較了用語言模型訓練的分類器在合成與真實臨床註記上的表現，以辨識急性腎衰竭。結果顯示，使用這兩種訓練數據在檢測急性腎衰竭時表現相似，顯示合成數據可能已足夠，不需從受保護健康資訊中取得訓練數據。 PubMed DOI

Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks.
利用大型語言模型生成合成數據以提高基於BERT的神經網絡性能。 AMIA Jt Summits Transl Sci Proc 2024-06-03

醫療專家不足是個大問題，但機器學習可輔助篩檢和診斷。建立龐大且具代表性的資料集成本高，因此使用大型語言模型生成自閉症相關行為的合成範例。目標是透過標記符合自閉症標準的行為提高模型準確性。評估顯示，合成資料有高比例的正確行為範例-標記對。增加資料集可提高召回率，但會降低精確度。未來研究將探討合成資料特徵對機器學習結果的影響。 PubMed DOI

Data Set and Benchmark (MedGPTEval) to Evaluate Responses From Large Language Models in Medicine: Evaluation Development and Validation.
醫學領域中用於評估大型語言模型回應的資料集和基準（MedGPTEval）：評估開發和驗證。 JMIR Med Inform 2024-07-02

LLMs在臨床應用上有潛力，但可能產生幻覺回應，對患者安全有風險。為此，開發了MedGPTEval評估系統，用來評估基於LLMs的三個聊天機器人。Dr PJ在多輪對話和病例報告表現較佳，具穩健性和專業能力。MedGPTEval提供全面框架，用於評估醫學領域的LLMs聊天機器人，並提供開源數據集和基準。 PubMed DOI

Does synthetic data augmentation improve the performances of machine learning classifiers for identifying health problems in patient-nurse verbal communications in home healthcare settings?
合成數據增強是否能提高機器學習分類器在家庭醫療環境中識別患者-護士口頭溝通中健康問題的表現？ J Nurs Scholarsh 2024-07-03

在家庭照護中運用機器學習辨識健康問題對成效至關重要。研究指出，透過GPT-4生成虛擬患者-護士對話資料並自動標記問題，結合真實與虛擬資料，機器學習分類器在辨識健康問題上有更佳表現。這項研究凸顯了虛擬資料在醫療分析中的潛力，對提升家庭照護患者複雜病況問題檢測的準確性與效率有所助益。 PubMed DOI

Comparison of Medical Research Abstracts Written by Surgical Trainees and Senior Surgeons or Generated by Large Language Models.
外科實習生與資深外科醫生撰寫的醫學研究摘要及大型語言模型生成的摘要比較。 JAMA Netw Open 2024-08-02

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月，訓練聊天機器人根據文獻創建10個摘要，並與現有摘要進行比較。五位外科醫生評審發現，AI生成的摘要與人類撰寫的質量相當，評分中位數相似。雖然版本1的評分接近評審者的評價，但版本2則偏向給予較高分數。整體而言，研究顯示AI能有效生成難以區分的醫學摘要，顯示其在醫學研究中的潛力。 PubMed DOI

Comparative Analysis of Large Language Models in Chinese Medical Named Entity Recognition.
中文醫學命名實體識別中大型語言模型的比較分析。 Bioengineering (Basel) 2024-10-25

這項研究探討大型語言模型（LLMs）在中文生物醫學命名實體識別（BNER）任務的表現，這領域的研究相對較少。作者評估了多個LLMs，包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4，使用真實的中文電子病歷數據集及公共數據集。結果顯示，雖然LLMs在零樣本和少樣本情境下有潛力，但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型，而GPT-3.5在CCKS2017數據集上表現最佳，但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究，顯示其潛力並為未來應用提供指導。 PubMed DOI

Leveraging Open-Source Large Language Models for Data Augmentation in Hospital Staff Surveys: Mixed Methods Study.
利用開源大型語言模型進行醫院員工調查的數據增強：混合方法研究。 JMIR Med Educ 2024-11-19

這項研究探討了開源大型語言模型（LLMs），如LLaMA和Alpaca，在早期COVID-19疫情期間的醫院員工調查中進行數據增強。研究分為兩步：首先用LLM生成合成數據，然後用三種分類器對這些數據進行主題分類。最佳結果來自LLaMA 7B，設定溫度0.7，生成100個合成數據點，結合RoBERTa進行分類，平均AUC達0.87。結果顯示，開源LLM能顯著提升醫療領域小型數據集的文本分類表現，並強調隱私與倫理考量的重要性，指向未來醫學教育和病人護理的研究方向。 PubMed DOI

Large language models generating synthetic clinical datasets: a feasibility and comparative analysis with real-world perioperative data.
大型語言模型生成合成臨床數據集：可行性及與真實世界圍手術數據的比較分析。 Front Artif Intell 2025-02-20

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據，以解決隱私法規和數據稀缺的問題。研究分為兩個階段：第一階段根據13個臨床參數創建了6,166個案例的結構化數據集，數據合理且準確；第二階段則利用真實的圍手術期數據集VitalDB生成數據，結果顯示92.31%的參數與VitalDB相似，且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據，未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

Can GPTs Accelerate the Development of Intelligent Diagnosis and Treatment in Traditional Chinese Medicine? A Survey and Empirical Analysis.
GPTs 能否加速傳統中醫智能診斷與治療的發展？一項調查與實證分析。 J Evid Based Med 2025-02-24

這項研究探討將大型語言模型（LLMs），如GPT，融入傳統中醫（TCM）的可能性，旨在現代化和全球化這個領域。中醫因專業術語和診斷方法的複雜性，面臨數位化和個性化的挑戰。雖然LLMs在語意理解上有潛力，但在準確性和邏輯推理上仍有不足，可能產生不可靠的結果。研究回顧現有文獻和實證數據，評估LLMs在中醫的潛在好處與挑戰，並討論未來的發展方向。 PubMed DOI

Using Synthetic Health Care Data to Leverage Large Language Models for Named Entity Recognition: Development and Validation Study.
使用合成健康照護數據來利用大型語言模型進行命名實體識別：開發與驗證研究。 J Med Internet Res 2025-03-18

這項研究針對低資源語言，特別是愛沙尼亞語，開發命名實體識別（NER）模型，目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據，作者提出三步驟方法：首先，利用本地訓練的GPT-2生成合成醫療數據；接著，使用GPT-3.5-Turbo和GPT-4對這些數據進行標註；最後，微調NER模型並測試真實醫療文本。研究結果顯示，藥物提取的F<sub>1</sub>分數為0.69，程序提取為0.38，顯示出在藥物識別上的有效性，並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

原始文章

站上相關主題文章列表