原始文章

這篇論文探討把語法驗證器結合大型語言模型,提升自然語言轉換成FHIR醫療資料的準確度。結果顯示,one-shot和few-shot提示的語法正確率達96%,優於zero-shot的90%。其中,one-shot在語意上也最接近標準答案,是臨床文本產生FHIR資源最有效的方法。 PubMed DOI


站上相關主題文章列表

這篇論文探討了大型語言模型(LLMs)在營養與飲食應用中的表現,特別是針對註冊營養師(RD)考試的1050道問題。研究比較了GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的準確性與一致性,並分析了不同提示技術的效果。結果顯示,GPT-4o在使用帶自我一致性的思考鏈(CoT-SC)時表現最佳,而Gemini 1.5 Pro在零提示(ZS)下則展現最高一致性。研究強調選擇合適的LLM和提示策略對減少錯誤風險的重要性。 PubMed DOI

這項研究發現,GPT-4o 在不用人工標註的情況下,能準確又有效率地從電子病歷資料做慢性病分類,表現比傳統規則式方法和其他 LLMs 更好。GPT-4o 召回率高達 0.97,macro-F1 分數也有 0.92。若結合 LLMs 和規則式方法,還能進一步提升準確度,讓人工審查更聚焦在有疑慮的案例上。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

這項研究推出 LLMonFHIR 行動 App,運用大型語言模型,幫助慢性心血管病人用多種語言、不同難度,甚至語音方式,查詢自己的電子健康紀錄。初步測試顯示,醫師認為 App 回覆正確、好懂又實用。雖然在健康摘要和檢驗數據查詢上還有改進空間,但 LLMonFHIR 有助於解決語言和健康素養障礙,讓病人更容易掌握自己的健康資訊。 PubMed DOI

這項研究發現,大型語言模型(LLMs)在有明確、結構化提示下,能準確且一致地評分醫學生臨床紀錄,但如果只給簡單指示,結果會不穩定。LLM有時會算錯總分,需要外部協助。整體來說,經過優化後,LLM有潛力成為醫學教育自動評分工具,但針對更複雜的評分系統還需進一步研究。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI

這項研究利用大型語言模型(LLMs)把電子健康紀錄(EHR)結構化資料轉成自然語言,並應用在疾病預測。LLMs分別扮演「預測者」和「評論者」兩種角色,負責預測結果和給予改進建議。結果顯示,在樣本數少的情況下,這種方法的預測表現不輸傳統監督式學習,對醫療應用很有發展潛力。 PubMed

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

這項研究發現,透過 embedding similarity 動態挑選最相關範例來做 few-shot prompting,可以大幅提升開源輕量級 LLM 在臨床紀錄分類的表現。這方法比 zero-shot 最多提升 39.3% macro F1 分數,也比靜態 few-shot 高出 21.1%,證明在臨床 NLP 任務上很有實用價值。 PubMed DOI