原始文章

我們用 AWS 和 Azure 上的生成式 AI(GPT-3.5、Flan T5-XL)來產生病患系統的合成問卷資料,提升測試效率和覆蓋率。過程中遇到技術、溝通和資源挑戰,尤其在資料真實感和測試限制間要取得平衡。建議一開始就共識評估指標、明確設計 persona 和提示詞,並建立彈性測試框架。 PubMed


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程,優化提示,提升回應質量。經過三次迭代後,臨床醫師對草擬回應的接受度從62%提升至84%,且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳,76%的病人無法分辨人類與LLM生成的回應。研究顯示,根據醫師和病人的反饋來精煉提示,能有效生成有用的醫療建議。 PubMed DOI

這項研究探討了開源大型語言模型(LLMs),如LLaMA和Alpaca,在早期COVID-19疫情期間的醫院員工調查中進行數據增強。研究分為兩步:首先用LLM生成合成數據,然後用三種分類器對這些數據進行主題分類。最佳結果來自LLaMA 7B,設定溫度0.7,生成100個合成數據點,結合RoBERTa進行分類,平均AUC達0.87。結果顯示,開源LLM能顯著提升醫療領域小型數據集的文本分類表現,並強調隱私與倫理考量的重要性,指向未來醫學教育和病人護理的研究方向。 PubMed DOI

最近在人工智慧(AI)領域,特別是大型語言模型(LLMs)如GPT-3.5和GPT-4,顯示出在醫療應用上的潛力。本研究探討將這些模型整合進良好實踐(GxP)驗證系統的可行性,重點在效能和可重複性。研究比較外部和內部託管的模型在命名實體識別(NER)和關係提取的表現,發現Zephyr-7b-beta模型在少樣本學習中表現優於GPT-3.5。儘管GPT-4的表現不錯,但在可重複性上仍有挑戰,建議利用GPT模型生成註釋提案作為微調訓練數據的基礎。 PubMed DOI

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據,以解決隱私法規和數據稀缺的問題。研究分為兩個階段:第一階段根據13個臨床參數創建了6,166個案例的結構化數據集,數據合理且準確;第二階段則利用真實的圍手術期數據集VitalDB生成數據,結果顯示92.31%的參數與VitalDB相似,且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據,未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

這篇研究介紹 QUEST-AI 系統,利用大型語言模型自動產生、審查和修正 USMLE 醫學考題。經醫師和醫學生測試,多數 AI 出的題目都很合格,且難以分辨是否由人類撰寫。這技術有望讓醫學考題製作更快速、便宜又方便。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄,發現模型越大,資料越完整,但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布,種族偏見則不一致,部分模型高估White或Black患者,低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性,並呼籲建立更完善的偏見評估標準。 PubMed DOI

這篇研究發現,ChatGPT在臨床專業有限時,能協助產生乳癌研究用的合成資料,但資料品質很依賴提示語設計和產生方法。要讓合成資料在醫療研究中可靠,必須重視有效的提示語設計和謹慎的資料合成技術。 PubMed

大型語言模型(LLMs)能自動化調整 Excel 健康經濟模型和技術報告到新情境,準確率高、成本低。只要幾分鐘、幾美元就能完成,且調整結果幾乎完美。這方法有望加快健康科技評估流程,讓病患更快取得治療。 PubMed DOI