原始文章

這項研究提出一套完整評估架構,專門檢測 AI 驅動的環境數位紀錄工具,協助醫師減輕紀錄負擔。架構結合人工和自動化評分,評估轉錄、說話者辨識及病歷品質。實測顯示工具在流暢度和清晰度表現佳,但事實正確性和新藥物紀錄仍有待加強,顯示導入前需嚴謹評估與治理。 PubMed DOI


站上相關主題文章列表

這項研究探討了先進自動語音辨識(ASR)技術在病人接觸過程中轉錄醫療資訊的效果,特別是在嘈雜的緊急醫療服務(EMS)環境中。研究評估了四個ASR引擎,結果顯示Google Speech-to-Text Clinical Conversation表現最佳,尤其在「心理狀態」和「過敏」類別上。然而,所有引擎在「治療」和「藥物」等關鍵類別的表現都不理想,顯示目前ASR技術尚無法完全自動化EMS的臨床文檔。這強調了進一步提升ASR技術的必要性。 PubMed DOI

環境書寫技術透過大型語言模型,為初級醫療服務提供了有潛力的解決方案。這項技術已逐漸融入初級醫療環境,因為病人需求多樣且重視整體照護。我們探討了這項技術在初級醫療中的發展階段,並指出它能提升照護質量。然而,針對安全性、偏見、病人影響及隱私等問題的研究仍然必要。此外,應加強對醫療人員的人工智慧及數位健康工具的培訓,以確保技術的有效與負責任應用。 PubMed DOI

這項研究旨在開發和驗證一個框架,以評估大型語言模型(LLM)生成的急診室記錄的準確性和臨床適用性。研究中,52名參與者使用HyperCLOVA X LLM創建了33份記錄,並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高,而定量評估則識別出七種主要錯誤類型,其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力,為未來的研究和應用提供了方向。 PubMed DOI

這項研究評估了一種大型語言模型驅動的環境人工智慧記錄員在臨床環境中的文檔使用情況。研究在一所大型醫療中心進行,持續三個月,涉及45位醫師。結果顯示,使用人工智慧記錄員後,文檔時間顯著減少,每份記錄中位時間減少0.57分鐘,每日文檔時間平均減少6.89分鐘。整體電子健康紀錄時間每天減少19.95分鐘。雖然人工智慧記錄員有效減輕了文檔負擔,但不同使用者之間的使用情況差異大,未來仍需進一步研究以提升其效能。 PubMed DOI

將大型語言模型(LLMs)應用於臨床診斷,能提升醫生與病患的互動,但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架(CRAFT-MD),透過自然對話來評估臨床LLMs的表現。研究發現,像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集,以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

人工智慧(AI)在醫療領域的應用逐漸普及,透過大型語言模型(如GPT-4)和自動語音識別技術,能有效提升醫療文檔的效率,讓醫生更專注於病人護理。然而,AI生成的內容需謹慎校對,因為可能出現錯誤或不準確的資訊。此外,隨著醫療數據的增加,患者隱私和算法偏見的風險也上升。因此,開發者應加強監管,遵循倫理指導,並改善輸出準確性。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

這項研究提出一套新框架,能提升大型語言模型(LLM)生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面,分析近1.3萬句臨床標註句子後,發現幻覺率1.47%、遺漏率3.45%。經優化後,重大錯誤率甚至比人類醫師還低,顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI

這項研究用多個大型語言模型(像是GPT-4、Claude 3.5等)來自動化產生EMS對話的電子病歷,結果比單一模型更準確,F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔,但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估,展現未來應用潛力。 PubMed DOI

這項研究比較了 ChatGPT 3.5 和 Google Gemini 1.0 Pro 在生成視網膜門診紀錄的表現。結果顯示,ChatGPT 3.5 不論在轉錄準確度還是紀錄品質都優於 Gemini。不過,兩者偶爾還是會出現資訊錯誤。整體來說,這類 AI 有助減輕醫師紀錄負擔,但還需要再優化才能更安心使用。 PubMed DOI