原始文章

這項研究用機器學習模型來比對英文和韓文健康問卷的語意相似度,目的是讓不同語言的健康資料更容易統一和標準化。研究發現,SBERT-LaBSE模型在跨語言比對上表現最好。這方法有助於整合多語言健康問卷,但還需要更多資料和領域來驗證。 PubMed DOI


站上相關主題文章列表

最近,自然語言處理(NLP)在語意數據分析上有了顯著進展,特別是在問卷研究中。研究者開發了一個「語意搜尋助手」的原型,能有效協調不同工具測量相同構念,並探索新構念組合。透過案例研究,該應用成功識別潛在的協調配對,減少了手動評估的需求。專家評估顯示,模型生成的配對與專家意見高度一致,證實了這種方法的有效性,顯示出嵌入模型在協調複雜數據集中的潛力。 PubMed DOI

這項研究探討開源大型語言模型(LLMs)在從電子健康紀錄(EHRs)中提取社會健康決定因素(SDoH)數據的效果。研究隨機選取200名患者,並由兩位審查者手動標記九個SDoH方面,達成93%的高一致性。結果顯示,LLMs的表現明顯優於基準模型,特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力,以提升LLMs在臨床研究中的應用,最終改善醫療結果。 PubMed DOI

SBDH-Reader是一個創新的工具,利用大型語言模型從醫療筆記中提取社會和行為健康決定因素(SBDH)數據。這個工具基於7,225份MIMIC-III數據庫的醫療筆記訓練,並在UT Southwestern Medical Center的971份病人筆記上測試,專注於就業、住房、婚姻關係和物質使用等六個類別。性能指標顯示,SBDH-Reader在各類別中取得了0.85到0.98的宏觀平均F1分數,特別是在識別不良屬性方面表現優異。總體而言,這個工具能有效提升臨床研究和病人照護的數據提取能力。 PubMed DOI

這項研究比較六種大型語言模型在韓國醫療體系回答RhD血型輸血問題的表現,GPT-4o雖然表現最好,但準確度還是輸給人類專家。即使用提示工程也只能小幅提升結果。未來LLMs(尤其是GPT-4o)有機會輔助臨床決策,但還無法完全取代醫師。 PubMed DOI

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄,發現模型越大,資料越完整,但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布,種族偏見則不一致,部分模型高估White或Black患者,低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性,並呼籲建立更完善的偏見評估標準。 PubMed DOI

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現,ChatGPT-4.0 英文答題最準確且自我覺察,中文則是 ERNIE 表現較好。不過,所有模型在中文表現都稍差,顯示有語言偏差。這提醒我們,AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

這篇研究針對電子病歷中難以提取健康社會決定因素(SDoH)問題,從四家醫院建立標註資料集,涵蓋21種SDoH,並用多種模型(包含大型語言模型)進行偵測。經過指令微調的LLMs表現最佳,F1值都很高,但模型跨醫院應用仍有困難。訓練好的模型已公開在GitHub。 PubMed DOI

這項研究比較四種GPT-4方法,把韓國醫院的診斷用語自動對應到SNOMED CT。結果顯示,RAG模型表現最好,有96.2%能成功對應,完全吻合率也最高。RAG的結構性錯誤率最低,但在細節準確度上還有進步空間。整體來說,AI輔助有助於醫療資料標準化,但臨床驗證還需加強。 PubMed DOI

這項研究發現,把醫學問卷從英文翻成丹麥文時,ChatGPT-4只要經過人工審查和驗證,翻譯品質就跟傳統人工翻譯沒什麼差別。無論是可讀性、理解度還是語言表現,大家的偏好都差不多,所以AI翻譯其實可以取代傳統問卷翻譯方式。 PubMed DOI

這項研究發現,GPT-4 和 GPT-4o 在韓國輸血醫學執照考試(無論韓文或英文題目)表現穩定且優於標準,其他模型則較不穩定,特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說,GPT-4/4o 在專業內容上可靠,但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI