Semantic search helper: A tool based on the use of embeddings in multi-item questionnaires as a harmonization opportunity for merging large datasets - A feasibility study.
基於多項問卷中嵌入技術的語義搜尋助手：作為合併大型數據集的協調機會的可行性研究。 Eur Psychiatry 2025-01-20

最近，自然語言處理（NLP）在語意數據分析上有了顯著進展，特別是在問卷研究中。研究者開發了一個「語意搜尋助手」的原型，能有效協調不同工具測量相同構念，並探索新構念組合。透過案例研究，該應用成功識別潛在的協調配對，減少了手動評估的需求。專家評估顯示，模型生成的配對與專家意見高度一致，證實了這種方法的有效性，顯示出嵌入模型在協調複雜數據集中的潛力。 PubMed DOI

Scalable information extraction from free text electronic health records using large language models.
使用大型語言模型從自由文本電子健康紀錄中進行可擴展的信息提取。 BMC Med Res Methodol 2025-01-28

這項研究探討開源大型語言模型（LLMs）在從電子健康紀錄（EHRs）中提取社會健康決定因素（SDoH）數據的效果。研究隨機選取200名患者，並由兩位審查者手動標記九個SDoH方面，達成93%的高一致性。結果顯示，LLMs的表現明顯優於基準模型，特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力，以提升LLMs在臨床研究中的應用，最終改善醫療結果。 PubMed DOI

SBDH-Reader: an LLM-powered method for extracting social and behavioral determinants of health from medical notes.
SBDH-Reader：一種基於 LLM 的方法，用於從醫療筆記中提取社會和行為健康決定因素。 medRxiv 2025-03-04

SBDH-Reader是一個創新的工具，利用大型語言模型從醫療筆記中提取社會和行為健康決定因素（SBDH）數據。這個工具基於7,225份MIMIC-III數據庫的醫療筆記訓練，並在UT Southwestern Medical Center的971份病人筆記上測試，專注於就業、住房、婚姻關係和物質使用等六個類別。性能指標顯示，SBDH-Reader在各類別中取得了0.85到0.98的宏觀平均F1分數，特別是在識別不良屬性方面表現優異。總體而言，這個工具能有效提升臨床研究和病人照護的數據提取能力。 PubMed DOI

Evaluation of Six Large Language Models for Clinical Decision Support: Application in Transfusion Decision-making for RhD Blood-type Patients.
六種大型語言模型於臨床決策支援之評估：應用於RhD血型患者輸血決策 Ann Lab Med 2025-04-28

這項研究比較六種大型語言模型在韓國醫療體系回答RhD血型輸血問題的表現，GPT-4o雖然表現最好，但準確度還是輸給人類專家。即使用提示工程也只能小幅提升結果。未來LLMs（尤其是GPT-4o）有機會輔助臨床決策，但還無法完全取代醫師。 PubMed DOI

Evaluation and Bias Analysis of Large Language Models in Generating Synthetic Electronic Health Records: Comparative Study.
大型語言模型在生成合成電子健康紀錄的評估與偏誤分析：比較性研究 J Med Internet Res 2025-05-12

這項研究評估7種大型語言模型產生的14萬筆合成電子健康紀錄，發現模型越大，資料越完整，但性別和種族偏見也越明顯。性別偏見多反映現實疾病分布，種族偏見則不一致，部分模型高估White或Black患者，低估Hispanic和Asian族群。研究強調AI健康資料需兼顧準確性與公平性，並呼籲建立更完善的偏見評估標準。 PubMed DOI

Large language model comparisons between English and Chinese query performance for cardiovascular prevention.
英語與中文查詢在心血管預防領域中大型語言模型表現之比較 Commun Med (Lond) 2025-05-16

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現，ChatGPT-4.0 英文答題最準確且自我覺察，中文則是 ERNIE 表現較好。不過，所有模型在中文表現都稍差，顯示有語言偏差。這提醒我們，AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

Social determinants of health extraction from clinical notes across institutions using large language models.
使用大型語言模型跨機構從臨床紀錄中擷取健康社會決定因素 NPJ Digit Med 2025-05-16

這篇研究針對電子病歷中難以提取健康社會決定因素（SDoH）問題，從四家醫院建立標註資料集，涵蓋21種SDoH，並用多種模型（包含大型語言模型）進行偵測。經過指令微調的LLMs表現最佳，F1值都很高，但模型跨醫院應用仍有困難。訓練好的模型已公開在GitHub。 PubMed DOI

Comparative Analysis of ChatGPT-4 for Automated Mapping of Local Medical Terminologies to SNOMED CT.
ChatGPT-4 用於自動對應在地醫學術語至 SNOMED CT 的比較分析 Stud Health Technol Inform 2025-05-17

這項研究比較四種GPT-4方法，把韓國醫院的診斷用語自動對應到SNOMED CT。結果顯示，RAG模型表現最好，有96.2%能成功對應，完全吻合率也最高。RAG的結構性錯誤率最低，但在細節準確度上還有進步空間。整體來說，AI輔助有助於醫療資料標準化，但臨床驗證還需加強。 PubMed DOI

Comparing ChatGPT-4 and Human Translation of an Outcome Questionnaire: A Randomized, Double-Blinded Non-inferiority Study.
ChatGPT-4 與人工翻譯結果問卷之比較：一項隨機、雙盲、非劣性研究 Cureus 2025-05-19

這項研究發現，把醫學問卷從英文翻成丹麥文時，ChatGPT-4只要經過人工審查和驗證，翻譯品質就跟傳統人工翻譯沒什麼差別。無論是可讀性、理解度還是語言表現，大家的偏好都差不多，所以AI翻譯其實可以取代傳統問卷翻譯方式。 PubMed DOI

Comparative evaluation of six large language models in transfusion medicine: Addressing language and domain-specific challenges.
六種大型語言模型於輸血醫學中的比較評估：應對語言及領域特有挑戰 Vox Sang 2025-05-23

這項研究發現，GPT-4 和 GPT-4o 在韓國輸血醫學執照考試（無論韓文或英文題目）表現穩定且優於標準，其他模型則較不穩定，特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說，GPT-4/4o 在專業內容上可靠，但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

原始文章

站上相關主題文章列表