原始文章

我們用 AWS 和 Azure 上的生成式 AI(GPT-3.5、Flan T5-XL)來產生病患系統的合成問卷資料,提升測試效率和覆蓋率。過程中遇到技術、溝通和資源挑戰,尤其在資料真實感和測試限制間要取得平衡。建議一開始就共識評估指標、明確設計 persona 和提示詞,並建立彈性測試框架。 PubMed


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程,優化提示,提升回應質量。經過三次迭代後,臨床醫師對草擬回應的接受度從62%提升至84%,且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳,76%的病人無法分辨人類與LLM生成的回應。研究顯示,根據醫師和病人的反饋來精煉提示,能有效生成有用的醫療建議。 PubMed DOI

這項研究探討使用OpenAI的GPT-4o生成合成臨床數據,以解決隱私法規和數據稀缺的問題。研究分為兩個階段:第一階段根據13個臨床參數創建了6,166個案例的結構化數據集,數據合理且準確;第二階段則利用真實的圍手術期數據集VitalDB生成數據,結果顯示92.31%的參數與VitalDB相似,且大多數參數間無顯著差異。研究顯示GPT-4o能有效生成反映實際臨床數據的合成數據,未來應進一步提高數據真實性並探索大型語言模型的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

這篇研究介紹 QUEST-AI 系統,利用大型語言模型自動產生、審查和修正 USMLE 醫學考題。經醫師和醫學生測試,多數 AI 出的題目都很合格,且難以分辨是否由人類撰寫。這技術有望讓醫學考題製作更快速、便宜又方便。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄,發現模型越大,資料越完整,但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布,種族偏見則不一致,部分模型高估White或Black患者,低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性,並呼籲建立更完善的偏見評估標準。 PubMed DOI

這篇研究發現,ChatGPT在臨床專業有限時,能協助產生乳癌研究用的合成資料,但資料品質很依賴提示語設計和產生方法。要讓合成資料在醫療研究中可靠,必須重視有效的提示語設計和謹慎的資料合成技術。 PubMed

大型語言模型(LLMs)能自動化調整 Excel 健康經濟模型和技術報告到新情境,準確率高、成本低。只要幾分鐘、幾美元就能完成,且調整結果幾乎完美。這方法有望加快健康科技評估流程,讓病患更快取得治療。 PubMed DOI

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現,結果顯示它們都能產生真實又實用的對話,平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好,但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究,但還是要注意多元性和偏見的問題。 PubMed DOI

生成式AI和大型語言模型越來越多人用來查醫療資訊,雖然有助提升健康知識,但也可能出現錯誤、過度簡化或隱私等問題。現有研究多著重正確性,較少納入病人實際經驗。未來應加強透明度、監督,並讓醫療人員和使用者參與回饋,同時加強大眾教育。 PubMed DOI