原始文章

最近,自然語言處理(NLP)在語意數據分析上有了顯著進展,特別是在問卷研究中。研究者開發了一個「語意搜尋助手」的原型,能有效協調不同工具測量相同構念,並探索新構念組合。透過案例研究,該應用成功識別潛在的協調配對,減少了手動評估的需求。專家評估顯示,模型生成的配對與專家意見高度一致,證實了這種方法的有效性,顯示出嵌入模型在協調複雜數據集中的潛力。 PubMed DOI


站上相關主題文章列表

系統性回顧(SR)的搜尋查詢開發通常相當繁瑣。本研究利用大型語言模型(LLMs)來自動生成基於SR標題和關鍵問題的布林搜尋查詢,並整理了10,346個來自PROSPERO的查詢作為訓練數據集。模型評估顯示,生成的搜尋查詢中位敏感度達85%,但仍有改進空間。訪談結果指出,這些模型可作為初步探索的工具,未來可透過提升查詢質量及特定領域微調來增強效果。此專案的數據集將有助於LLMs的訓練與評估。 PubMed DOI

這項研究探討心理概念重疊的問題,這種重疊讓數據解釋變得複雜,增加了參與者的負擔。研究引入了一種名為嵌入式語義分析方法(ESAA),利用自然語言處理技術檢測心理量表中的冗餘。透過OpenAI的text-embedding-3-large模型,ESAA生成高維語義向量,並用層次聚類識別相似項目。 研究進行了三個實驗,評估ESAA在識別相似項目、區分不同項目及揭示冗餘方面的有效性。結果顯示,ESAA表現穩定且優於基於GPT-4的聊天機器人,顯示其在心理研究中的潛力。 PubMed DOI

這項研究探討開源大型語言模型(LLMs)在從電子健康紀錄(EHRs)中提取社會健康決定因素(SDoH)數據的效果。研究隨機選取200名患者,並由兩位審查者手動標記九個SDoH方面,達成93%的高一致性。結果顯示,LLMs的表現明顯優於基準模型,特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力,以提升LLMs在臨床研究中的應用,最終改善醫療結果。 PubMed DOI

這篇論文介紹了一個新工具 SEMbeddings,結合微調的嵌入模型與潛在測量模型,能在實際數據收集前評估項目反應數據的適配度。作者將其應用於 VIA-IS-P 問卷,分析了 31,697 名參與者的回應,結果顯示項目嵌入的餘弦相似度與實證相關性有顯著關聯 (r = 0.67)。論文也提到,傳統適配指標可能不夠準確,但修正指標能提供潛在不適配的見解,對於問卷開發有幫助。隨著大型語言模型的進步,這些方法有望提升新問卷的開發效率。 PubMed DOI

將臨床數據整合成OMOP標準格式對數據共享和分析至關重要,但過程複雜且耗時。為解決這一問題,開發了一個友好的自動化工具,利用大型語言模型來轉換臨床試驗數據和電子健康紀錄。該工具採用三層語義匹配系統,並在驗證中展現出高準確性,精確度達0.92至0.99,召回率達0.88至0.97。這使得小型研究團隊能更輕鬆參與數據共享,對加速臨床研究數據標準化具有重要意義。 PubMed DOI

這項研究推出 CDEMapper 工具,結合語意搜尋和大型語言模型,協助把本地資料對應到 NIH 的標準資料元素。CDEMapper 不只提升對應準確率,也讓操作更方便,有助於資料互通和重複利用。評估結果顯示,這工具比傳統人工方法更有效率,展現 LLM 在資料對應上的優勢。 PubMed DOI

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

傳統質性研究難以驗證假說,因為文字資料不好量化。TESA這個新方法,利用大型語言模型把假說變成搜尋詞,抓出語意嵌入,再跟文本比對相似度。這樣就能用分數分布來做假說檢驗,解決過去方法偏誤和效率低的問題。 PubMed DOI

這項研究用機器學習模型來比對英文和韓文健康問卷的語意相似度,目的是讓不同語言的健康資料更容易統一和標準化。研究發現,SBERT-LaBSE模型在跨語言比對上表現最好。這方法有助於整合多語言健康問卷,但還需要更多資料和領域來驗證。 PubMed DOI

這份指南回顧並比較三種心理學構念的向量化方法:用單字清單、問卷和有標記範例。作者指出,若要分析不同文本類型,建議用單字清單;若文本和問卷內容接近,則用問卷;有大量標記資料時,則用標記範例。指南也提醒研究者注意嵌入模型的特性和潛在方法問題。 PubMed DOI