Evaluating of BERT-based and Large Language Mod for Suicide Detection, Prevention, and Risk Assessment: A Systematic Review.
基於 BERT 的大型語言模型在自殺檢測、預防和風險評估中的評估：系統性回顧。 J Med Syst 2024-12-31

自殺是重要的公共健康議題，人工智慧的進步，特別是大型語言模型（LLMs），在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究，探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示，這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力，但仍需解決倫理問題，並與心理健康專家合作。 PubMed DOI

Using Large Language Models to Detect and Understand Drug Discontinuation Events in Web-Based Forums: Development and Validation Study.
使用大型語言模型檢測和理解網路論壇中的藥物中斷事件：開發與驗證研究。 J Med Internet Res 2025-01-30

這項研究探討如何利用大型語言模型（LLMs），如BART和GPT-4，從MedHelp論壇的用戶評論中識別藥物停用事件（DDEs）。DDEs對藥物依從性和病人結果至關重要，但研究仍不多。研究人員建立了一個靈活的框架，並發布了首個開源DDE數據集，以促進後續研究。結果顯示，GPT-4o在識別根本原因上表現優異，而BART在檢測DDEs方面最有效。這項研究顯示了LLMs在分析公開數據的潛力，並鼓勵進一步探索。 PubMed DOI

Evaluation of error detection and treatment recommendations in nucleic acid test reports using ChatGPT models.
使用 ChatGPT 模型評估核酸檢測報告中的錯誤偵測與治療建議 Clin Chem Lab Med 2025-04-18

這項研究比較三款GPT模型在醫學檢驗報告錯誤偵測和治療建議的表現。結果顯示，GPT模型平均能準確抓出約九成錯誤，但對格式錯誤較不敏感。GPT的判斷和資深檢驗師幾乎一樣準，速度還更快。GPT-o1 mini偵錯最穩定，GPT-o1給治療建議最強，顯示AI有助提升檢驗室效率和臨床決策。 PubMed DOI

Detection and classification of ChatGPT-generated content using deep transformer models.
使用深度 Transformer 模型偵測與分類 ChatGPT 生成內容 Front Artif Intell 2025-04-21

這項研究建立了一個結合人類和 ChatGPT 生成文本的資料集，訓練多種機器學習模型來偵測 AI 內容。以 Transformer 架構、特別是自訂 RoBERTa 模型，能有效分辨 AI 與人類文本（F1 分數 0.992，準確率 0.991），為 AI 文字偵測提供強力基準。未來建議擴展到其他 AI 來源並持續優化偵測技術。 PubMed DOI

An LLM-based hybrid approach for enhanced automated essay scoring.
基於LLM的混合式方法以提升自動作文評分效能 Sci Rep 2025-04-25

傳統自動作文評分系統只看單字和句子，無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型，利用大型語言模型提升作文連貫性和品質評估。實驗證明，我們的方法比現有技術更準確，有助提升學生寫作評量的公正性與精確度。 PubMed DOI

Using Large Language Models for Advanced and Flexible Labelling of Protocol Deviations in Clinical Development.
在臨床開發中運用大型語言模型進行先進且彈性的試驗偏差標註 Ther Innov Regul Sci 2025-05-13

臨床試驗中，方案偏差（PDs）定義不一，難以有效辨識關鍵影響。傳統用NLP分類PDs又慢又複雜。這項研究用Meta Llama2大型語言模型，開發自動化系統，能快速分類Roche系統裡的PDs，自動標記出超過八成可能影響結果的PDs，讓專家能聚焦審查，大幅提升效率，幾分鐘就能得到有用見解。 PubMed DOI

Large Language Models and Text Embeddings for Detecting Depression and Suicide in Patient Narratives.
大型語言模型與文本嵌入於病患敘述中偵測憂鬱與自殺的應用 JAMA Netw Open 2025-05-23

這項研究發現，大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中，準確辨識憂鬱症和自殺風險，尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估，但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

A Comparison of LLMs for Use in Generating Synthetic Test Data for Automated Testing of a Patient-Focused, Survey-Based System.
用於自動化測試以病患為中心、以問卷為基礎系統之合成測試資料生成的LLMs比較 AMIA Annu Symp Proc 2025-05-26

我們用 AWS 和 Azure 上的生成式 AI（GPT-3.5、Flan T5-XL）來產生病患系統的合成問卷資料，提升測試效率和覆蓋率。過程中遇到技術、溝通和資源挑戰，尤其在資料真實感和測試限制間要取得平衡。建議一開始就共識評估指標、明確設計 persona 和提示詞，並建立彈性測試框架。 PubMed

Detecting the clinical features of difficult-to-treat depression using synthetic data from large language models.
利用大型語言模型生成的合成資料偵測難治型憂鬱症的臨床特徵 Comput Biol Med 2025-06-11

這項研究用GPT-3.5產生的合成資料訓練BERT模型，能自動從電子病歷自由文本中抓出難治型憂鬱症的關鍵預後因子。模型在真實臨床資料上辨識20個相關因子，F1分數最高達0.85。這方法有助於用日常紀錄偵測DTD，不需用到敏感資料或花錢請專家標註。 PubMed DOI

Assessing the transferability of BERT to patient safety: classifying multiple types of incident reports.
BERT於病人安全領域的可轉移性評估：多類型事件報告的分類 BMJ Health Care Inform 2025-08-19

這項研究發現，微調過的BERT模型在分類病人安全事件報告時，比傳統CNN模型更能準確辨識罕見事件和嚴重程度，且在新資料上也有不錯表現。即使資料量少或分布不均，BERT只用預設參數就能有很好的效果，顯示其在醫療文本分類上相當有潛力。 PubMed DOI

原始文章

站上相關主題文章列表