Accuracy of a Proprietary Large Language Model in Labeling Obstetric Incident Reports.
專有大型語言模型在標記產科事件報告中的準確性。 Jt Comm J Qual Patient Saf 2024-09-10

這項研究評估了GPT-3.5這種大型語言模型在自動標記產科事件報告的效果。分析了370份住院產科報告，並以人類標註作為金標準。結果顯示，該模型的敏感度達85.7%，特異度為97.9%，使用了79個標籤，而人類僅用了49個。模型的標籤解釋也有60.8%獲得審核者認可。總體來看，GPT-3.5能提升事件報告系統的數據利用效率，並可能改善病人安全。 PubMed DOI

A large language model framework to uncover underreporting in traffic crashes.
一個大型語言模型框架以揭示交通事故的低報告情況。 J Safety Res 2025-02-22

這項研究探討交通事故報告中的低報問題，這會影響交通安全措施的發展。傳統修正方法慢且易出錯，特別是處理大數據時。作者提出一個框架，利用大型語言模型（LLMs）分析事故敘述，識別低報因素，如酒精參與。研究團隊用麻薩諸塞州的500份事故報告進行案例研究，結果顯示高準確率，召回率達1.0，精確率0.93，成功識別低報情況。這方法提升了交通安全分析的效率，未來可改善事故記錄質量，支持更有效的安全對策。 PubMed DOI

A Large Language Model-Based Approach for Coding Information from Free-Text Reported in Fall Risk Surveillance Systems: New Opportunities for In-Hospital Risk Management.
基於大型語言模型的自由文本報告編碼信息的方法：住院風險管理的新機會。 J Clin Med 2025-03-17

跌倒是醫院常見的不良事件，對患者及醫療系統影響深遠。本研究旨在利用大型語言模型（LLMs）自動編碼住院跌倒記錄，提取跌倒地點及受傷情況。研究分析了187條跌倒事件，使用GPT-4-turbo模型進行數據分類，結果顯示模型在地點和受傷檢測上表現優異，準確率均超過0.913及0.953。結論指出，GPT模型能有效從未優化文本中提取信息，顯示其在臨床風險管理中的潛力。 PubMed DOI

Exploring the Potential of Large Language Models for Automated Safety Plan Scoring in Outpatient Mental Health Settings.
探索大型語言模型在門診心理健康環境中自動安全計劃評分的潛力。 medRxiv 2025-04-08

安全規劃介入忠實度評估工具（SPIFR）是一個自動化工具，專門用來評估自殺風險管理的安全規劃介入（SPI）質量。它利用三個大型語言模型（LLMs）分析了266個去識別化的SPI，重點在於警示徵兆、內部應對策略、安全環境及生存理由。研究發現，LLaMA 3和o3-mini的表現優於GPT-4，並針對每個步驟提出了最佳評分系統。這顯示大型語言模型在提供臨床醫師即時且準確的反饋方面的潛力，有助於提升自殺預防策略的有效性。 PubMed DOI

Leveraging LLMs to Understand Narratives in Maude Reports.
利用大型語言模型 (LLMs) 理解 Maude 報告中的敘事。 Stud Health Technol Inform 2025-04-09

MAUDE資料庫追蹤醫療器材的不良事件，最近受到更多關注，但報告中的敘述常被忽略，導致重要見解流失。為了解決這個問題，我們使用大型語言模型（LLMs），特別是OpenAI的GPT-4-turbo，來分析內視鏡夾相關的MAUDE報告，識別未編碼的手術程序並提取額外見解。這種方法顯示LLMs在處理敘述數據上的有效性，提供比傳統分析更高效且具成本效益的替代方案，最終能將MAUDE報告轉化為臨床實踐的可行知識。 PubMed DOI

Leveraging Data Pipeline and LLM to Advance Patient Safety Event Studies.
運用資料流程與LLM以促進病人安全事件研究 Stud Health Technol Inform 2025-05-17

這個專案用標準化流程和大型語言模型來分析MAUDE資料庫裡醫療器材報告的自由敘述，提升事件分類的準確率和效率。以內視鏡黏膜切除術為例，這方法也能應用到其他醫材。不過，若要做更全面的病人安全研究，還需要更多元且大量的報告樣本。 PubMed DOI

Detecting Adverse Drug Events in Clinical Notes Using Large Language Models.
使用大型語言模型偵測臨床紀錄中的藥物不良事件 Stud Health Technol Inform 2025-05-17

在電子病歷中找出藥物不良事件（ADEs）很困難，因為相關資訊多藏在醫師的自由書寫紀錄裡。人工審查又很耗時，所以需要自動化工具。這項研究用大型語言模型來偵測ADEs，發現不到15%的出院紀錄會明確記載ADEs與藥物的關聯，顯示通報機制還有很大改進空間。 PubMed DOI

Early detection of occupational stress: Enhancing workplace safety with machine learning and large language models.
職業壓力的早期偵測：結合機器學習與大型語言模型提升職場安全 PLoS One 2025-06-02

這項研究用機器學習分析職場問卷，提出新特徵選擇法，找出39個關鍵壓力指標，並結合多種模型，準確率超過九成，優於過去研究。方法經多重驗證，對新資料也有效。研究還用1D-CNN和創新資料轉換，讓語言模型能處理問卷資料。結果顯示，壓力和生物醫學因素關聯高，主要壓力來自工作量、溝通和環境。只需問卷即可即時監測職場壓力，實用性高。 PubMed DOI

The need for guardrails with large language models in pharmacovigilance and other medical safety critical settings.
在藥物警戒及其他醫療安全關鍵情境中應設置大型語言模型的防護措施之必要性 Sci Rep 2025-07-30

大型語言模型雖然能協助知識型工作，但有時會產生錯誤資訊，對藥物安全來說風險很高。我們開發的防護機制能偵測問題資料、錯誤藥品或事件名稱，並表達不確定性。這些機制已整合進針對不良事件通報微調的模型中，有效降低關鍵錯誤，提升醫療安全與符合法規。 PubMed DOI

Assessing the transferability of BERT to patient safety: classifying multiple types of incident reports.
BERT於病人安全領域的可轉移性評估：多類型事件報告的分類 BMJ Health Care Inform 2025-08-19

這項研究發現，微調過的BERT模型在分類病人安全事件報告時，比傳統CNN模型更能準確辨識罕見事件和嚴重程度，且在新資料上也有不錯表現。即使資料量少或分布不均，BERT只用預設參數就能有很好的效果，顯示其在醫療文本分類上相當有潛力。 PubMed DOI

原始文章

站上相關主題文章列表