原始文章

過去研究多只偵測技術債或臭蟲其中一種,也很少用深度學習。這篇研究提出用LSTM、GRU和Transformer(BERT、GPT-3)等模型來辨識和分類軟體註解裡的技術債和臭蟲,資料來自主流程式庫。結果顯示,Transformer表現最好,GPT-3準確率最高達0.984,能有效提升軟體品質評估,對學界和業界都很有幫助。 PubMed DOI


站上相關主題文章列表

這篇文章探討利用先進的機器學習技術來檢測自閉症譜系障礙(ASD)。研究主要有三個目標:評估模型在不同數據集上的有效性、檢視模型之間的知識轉移潛力,以及評估數據增強對模型表現的影響。研究使用了微調HerBERT和OpenAI的文本嵌入技術,數據集來自TLC工具和ADOS-2。結果顯示,模型在TLC數據上表現較好,但知識轉移未見成效,且數據增強技術可能掩蓋重要信號。總體而言,模型的有效性受數據類型和診斷工具影響。 PubMed DOI

這項研究探討了訓練大型語言模型(LLMs)來根據美國住院醫師教育認證委員會(ACGME)的標準分類受訓者的反饋。研究發現,雖然複雜的模型未必能提高分類準確率,但較小的模型如BERT-mini在性能上與FastText相當,且在個人設備上部署時更具優勢,能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

這項研究探討了生成式 AI 模型(如 ChatGPT、Gemini 和 Claude)在 K-12 教育中的應用,強調其在各科目的優勢,並討論學術不誠實的倫理問題。研究使用傳統機器學習模型和大型語言模型來檢測高風險寫作評估中的 AI 生成內容,並評估檢測方法的效果,考慮改寫工具的影響。研究還引入新方法,利用同義詞資訊識別人性化的 AI 文字,並探討數據集大小對模型表現的影響,以指導未來的數據收集。 PubMed DOI

自殺是重要的公共健康議題,人工智慧的進步,特別是大型語言模型(LLMs),在自殺檢測和預防上有顯著貢獻。這篇綜述分析了2018年到2024年間的29項研究,探討像GPT、Llama和BERT等模型在自殺預防中的應用。研究顯示,這些模型在早期檢測和預測方面通常表現優於心理健康專業人士。儘管LLMs展現出拯救生命的潛力,但仍需解決倫理問題,並與心理健康專家合作。 PubMed DOI

這項研究比較三款GPT模型在醫學檢驗報告錯誤偵測和治療建議的表現。結果顯示,GPT模型平均能準確抓出約九成錯誤,但對格式錯誤較不敏感。GPT的判斷和資深檢驗師幾乎一樣準,速度還更快。GPT-o1 mini偵錯最穩定,GPT-o1給治療建議最強,顯示AI有助提升檢驗室效率和臨床決策。 PubMed DOI

這項研究建立了一個結合人類和 ChatGPT 生成文本的資料集,訓練多種機器學習模型來偵測 AI 內容。以 Transformer 架構、特別是自訂 RoBERTa 模型,能有效分辨 AI 與人類文本(F1 分數 0.992,準確率 0.991),為 AI 文字偵測提供強力基準。未來建議擴展到其他 AI 來源並持續優化偵測技術。 PubMed DOI

傳統自動作文評分系統只看單字和句子,無法掌握文章結構和語意。我們提出結合多層次語言特徵的混合模型,利用大型語言模型提升作文連貫性和品質評估。實驗證明,我們的方法比現有技術更準確,有助提升學生寫作評量的公正性與精確度。 PubMed DOI

臨床試驗中,方案偏差(PDs)定義不一,難以有效辨識關鍵影響。傳統用NLP分類PDs又慢又複雜。這項研究用Meta Llama2大型語言模型,開發自動化系統,能快速分類Roche系統裡的PDs,自動標記出超過八成可能影響結果的PDs,讓專家能聚焦審查,大幅提升效率,幾分鐘就能得到有用見解。 PubMed DOI

我們用 AWS 和 Azure 上的生成式 AI(GPT-3.5、Flan T5-XL)來產生病患系統的合成問卷資料,提升測試效率和覆蓋率。過程中遇到技術、溝通和資源挑戰,尤其在資料真實感和測試限制間要取得平衡。建議一開始就共識評估指標、明確設計 persona 和提示詞,並建立彈性測試框架。 PubMed

這項研究用GPT-3.5產生的合成資料訓練BERT模型,能自動從電子病歷自由文本中抓出難治型憂鬱症的關鍵預後因子。模型在真實臨床資料上辨識20個相關因子,F1分數最高達0.85。這方法有助於用日常紀錄偵測DTD,不需用到敏感資料或花錢請專家標註。 PubMed DOI