原始文章

這項研究用 ChatGPT3.5 自動從電子病歷的出院摘要中擷取藥物資訊,解決了多語言和格式不一的問題。研究發現,few-shot 提示比 zero-shot 更準確,錯誤也較少。ChatGPT3.5 在命名實體辨識和文字擴充的 F1 分數分別達 0.94 和 0.87,更新版模型表現更好。結果證明大型語言模型能有效結構化藥物資料,提升資訊可用性。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)在藥物審查中的表現,特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM,發現ChatGPT在劑量方案上表現良好,但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用,但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議,而Gemini在基因組學上表現不錯。研究指出,LLM在藥物審查中有潛力,但整合進醫療系統對病人安全至關重要。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI

這項研究針對低資源語言,特別是愛沙尼亞語,開發命名實體識別(NER)模型,目的是從醫療記錄中提取重要的醫療實體。由於缺乏標註數據,作者提出三步驟方法:首先,利用本地訓練的GPT-2生成合成醫療數據;接著,使用GPT-3.5-Turbo和GPT-4對這些數據進行標註;最後,微調NER模型並測試真實醫療文本。研究結果顯示,藥物提取的F<sub>1</sub>分數為0.69,程序提取為0.38,顯示出在藥物識別上的有效性,並指出程序提取的挑戰。這方法為未來在其他語言的研究提供了新方向。 PubMed DOI

這篇論文探討生物醫學文本中的命名實體識別(NER)挑戰,特別是在數據稀缺的情況下。作者指出現有數據增強方法的不足,可能會影響語義,且忽略多尺度句子特徵。為了解決這些問題,他們提出利用ChatGPT生成多樣化的數據,並採用動態卷積捕捉多尺度語義,結合PubMedBERT增強特徵表示。實驗結果顯示,這種方法在四個生物醫學NER數據集上表現優於現有模型,顯示出在數據增強和模型泛化上的有效性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

這項研究發現,GPT-4o 在不用人工標註的情況下,能準確又有效率地從電子病歷資料做慢性病分類,表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97,macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法,還能進一步提升準確度,讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

這項研究用模擬病人測試ChatGPT(GPT-4o和GPT-4-Turbo)在急診分級和門診指引的表現。經過優化後,GPT-4-Turbo用MEWS分級達到100%準確率,優於GPT-4o(96.2%);GPT-4o在門診科別選擇也有92.6%高準確率,且情感回應更好。結果顯示,經設計的ChatGPT能有效協助急診分級與指引,但還需更多臨床驗證。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI

研究發現,ChatGPT能準確從非結構化臨床紀錄中擷取癌症病患的關鍵資料,如Gleason分數和年齡(F1=0.99),對安寧照護和疼痛狀態的辨識也不錯(F1=0.86)。但few-shot提示有時反而降低準確度,加入背景資訊也未必有幫助。整體來說,ChatGPT有潛力協助電子病歷資料結構化,促進醫療研究資料共享。 PubMed

這項研究發現,ChatGPT 4.0在建議第二型糖尿病藥物時,對單一藥物治療的建議最接近醫師,但治療越複雜一致性就越低。用少量範例提示能提升準確度,尤其在單一和雙重治療上,但三重治療還是不理想。總結來說,ChatGPT適合輔助簡單病例決策,但複雜治療還需加強。 PubMed DOI