原始文章

這項研究提出一套完整評估架構,專門檢測 AI 驅動的環境數位紀錄工具,協助醫師減輕紀錄負擔。架構結合人工和自動化評分,評估轉錄、說話者辨識及病歷品質。實測顯示工具在流暢度和清晰度表現佳,但事實正確性和新藥物紀錄仍有待加強,顯示導入前需嚴謹評估與治理。 PubMed DOI


站上相關主題文章列表

將大型語言模型(LLMs)應用於臨床診斷,能提升醫生與病患的互動,但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架(CRAFT-MD),透過自然對話來評估臨床LLMs的表現。研究發現,像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集,以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

人工智慧(AI)在醫療領域的應用逐漸普及,透過大型語言模型(如GPT-4)和自動語音識別技術,能有效提升醫療文檔的效率,讓醫生更專注於病人護理。然而,AI生成的內容需謹慎校對,因為可能出現錯誤或不準確的資訊。此外,隨著醫療數據的增加,患者隱私和算法偏見的風險也上升。因此,開發者應加強監管,遵循倫理指導,並改善輸出準確性。 PubMed DOI

大型語言模型(LLMs)在醫療領域的應用日益增多,但目前的評估方法主要依賴人類的主觀評價,這不僅耗時,還容易受到偏見影響。為了解決這個問題,我們提出了一個結合定性與定量評估的統一框架,能夠更客觀地評估LLMs的表現。我們應用此框架於Epic In-Basket功能的評估,發現AI生成的回覆雖然流暢,但在連貫性和完整性上仍有不足。這顯示出量化指標能有效減少人力投入,提升評估的可擴展性。總之,我們的框架有助於提升LLMs在醫療領域的評估可靠性。 PubMed DOI

將大型語言模型(LLMs)整合進心理健康臨床護理中撰寫筆記的趨勢逐漸上升。我們的研究目的是建立評估LLMs在心理健康電子健康紀錄(EHRs)中使用的標準,重點在於特徵、安全性和倫理考量。雖然供應商提供了數據保護和病人功能等資訊,但對於LLMs的訓練方法和偏見修正等關鍵細節卻缺乏透明度,這引發了倫理上的擔憂。雖然LLMs有助於減輕文書負擔,但仍需改善透明度和標準化,以確保其安全性和臨床護理的高標準。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

PDSQI-9 是專門評估大型語言模型(LLM)從電子病歷產生臨床摘要品質的工具。研究證實它有高信賴度和一致性,能有效分辨摘要好壞。PDSQI-9 涵蓋組織、清晰度、正確性和實用性等重點,是評估 LLM 產生臨床文件的有力工具,有助於 LLM 更安全地應用在醫療流程中。 PubMed DOI

這項研究提出一套新框架,能提升大型語言模型(LLM)生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面,分析近1.3萬句臨床標註句子後,發現幻覺率1.47%、遺漏率3.45%。經優化後,重大錯誤率甚至比人類醫師還低,顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI

大型語言模型的AI(像環境智慧)已用在神經科學領域,能自動化臨床紀錄,減輕醫師負擔、提升照護品質。但也有錯誤、偏見等風險,還可能讓醫護產生新型職業倦怠,特別是在癲癇照護這種需精確紀錄的領域。要安全有效運用,還是需要人類監督、持續研究、法規和多方合作。 PubMed DOI

這項研究比較了 ChatGPT 3.5 和 Google Gemini 1.0 Pro 在生成視網膜門診紀錄的表現。結果顯示,ChatGPT 3.5 不論在轉錄準確度還是紀錄品質都優於 Gemini。不過,兩者偶爾還是會出現資訊錯誤。整體來說,這類 AI 有助減輕醫師紀錄負擔,但還需要再優化才能更安心使用。 PubMed DOI