原始文章

過去研究多只偵測技術債或臭蟲其中一種,也很少用深度學習。這篇研究提出用LSTM、GRU和Transformer(BERT、GPT-3)等模型來辨識和分類軟體註解裡的技術債和臭蟲,資料來自主流程式庫。結果顯示,Transformer表現最好,GPT-3準確率最高達0.984,能有效提升軟體品質評估,對學界和業界都很有幫助。 PubMed DOI


站上相關主題文章列表

自殺是重要的公共健康議題,人工智慧的進步,特別是大型語言模型(LLMs),在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究,探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示,這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力,但仍需解決倫理問題,並與心理健康專家合作。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs),如BART和GPT-4,從MedHelp論壇的用戶評論中識別藥物停用事件(DDEs)。DDEs對藥物依從性和病人結果至關重要,但研究仍不多。研究人員建立了一個靈活的框架,並發布了首個開源DDE數據集,以促進後續研究。結果顯示,GPT-4o在識別根本原因上表現優異,而BART在檢測DDEs方面最有效。這項研究顯示了LLMs在分析公開數據的潛力,並鼓勵進一步探索。 PubMed DOI

這項研究比較三款GPT模型在醫學檢驗報告錯誤偵測和治療建議的表現。結果顯示,GPT模型平均能準確抓出約九成錯誤,但對格式錯誤較不敏感。GPT的判斷和資深檢驗師幾乎一樣準,速度還更快。GPT-o1 mini偵錯最穩定,GPT-o1給治療建議最強,顯示AI有助提升檢驗室效率和臨床決策。 PubMed DOI

這項研究建立了一個結合人類和 ChatGPT 生成文本的資料集,訓練多種機器學習模型來偵測 AI 內容。以 Transformer 架構、特別是自訂 RoBERTa 模型,能有效分辨 AI 與人類文本(F1 分數 0.992,準確率 0.991),為 AI 文字偵測提供強力基準。未來建議擴展到其他 AI 來源並持續優化偵測技術。 PubMed DOI

傳統自動作文評分系統只看單字和句子,無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型,利用大型語言模型提升作文連貫性和品質評估。實驗證明,我們的方法比現有技術更準確,有助提升學生寫作評量的公正性與精確度。 PubMed DOI

臨床試驗中,方案偏差(PDs)定義不一,難以有效辨識關鍵影響。傳統用NLP分類PDs又慢又複雜。這項研究用Meta Llama2大型語言模型,開發自動化系統,能快速分類Roche系統裡的PDs,自動標記出超過八成可能影響結果的PDs,讓專家能聚焦審查,大幅提升效率,幾分鐘就能得到有用見解。 PubMed DOI

這項研究發現,大型語言模型和文字嵌入模型能從精神科病患的句子完成測驗中,準確辨識憂鬱症和自殺風險,尤其在分析自我概念相關內容時效果最好。最佳模型偵測憂鬱症的AUROC達0.841。雖然AI有潛力協助心理健康評估,但臨床應用前還需要更多改進和安全驗證。 PubMed DOI

我們用 AWS 和 Azure 上的生成式 AI(GPT-3.5、Flan T5-XL)來產生病患系統的合成問卷資料,提升測試效率和覆蓋率。過程中遇到技術、溝通和資源挑戰,尤其在資料真實感和測試限制間要取得平衡。建議一開始就共識評估指標、明確設計 persona 和提示詞,並建立彈性測試框架。 PubMed

這項研究用GPT-3.5產生的合成資料訓練BERT模型,能自動從電子病歷自由文本中抓出難治型憂鬱症的關鍵預後因子。模型在真實臨床資料上辨識20個相關因子,F1分數最高達0.85。這方法有助於用日常紀錄偵測DTD,不需用到敏感資料或花錢請專家標註。 PubMed DOI

這項研究發現,微調過的BERT模型在分類病人安全事件報告時,比傳統CNN模型更能準確辨識罕見事件和嚴重程度,且在新資料上也有不錯表現。即使資料量少或分布不均,BERT只用預設參數就能有很好的效果,顯示其在醫療文本分類上相當有潛力。 PubMed DOI