原始文章

LabQAR 是全新人工整理的實驗室檢驗參考值資料集,收錄 550 筆、共 363 種檢驗項目,並附詳細註解和多選題,協助自動化解讀檢驗結果。研究發現 GPT-4o 在這項任務表現最佳,顯示大型語言模型有助於臨床決策與複雜數據處理。 PubMed DOI


站上相關主題文章列表

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了九個大型語言模型(LLMs)在醫學領域的表現,特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗,結果顯示GPT-4o的準確率最高,達81.7%,其次是GPT-4 Turbo(76.1%)和Claude 3 Opus(74.3%)。這些模型在數字和計算任務上表現優異,顯示出它們能有效運用現有知識協助醫療專業人員進行決策,未來有潛力成為醫療輔助工具。 PubMed DOI

這項研究探討實驗室檢測結果對大型語言模型(LLMs)在醫學鑑別診斷(DDx)準確性的影響。研究人員從50個病例報告中創建臨床小插曲,評估了五個LLMs的表現,包括GPT-4、GPT-3.5等。結果顯示,加入實驗室數據可提高DDx準確性多達30%。其中,GPT-4表現最佳,Top 1準確率達55%,寬鬆準確率79%。特別是GPT-4和Mixtral的改進顯著,這些模型能有效解讀肝功能和代謝面板等檢測結果。 PubMed DOI

病理科部門產生大量非結構化數據,主要以自由文本的診斷報告形式存在,轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務,但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集,評估了六個語言模型的提取能力。研究顯示,開源模型在提取結構化數據方面的精度與專有模型相當,且具成本效益和隱私保護潛力,為醫療機構提供了重要見解。 PubMed DOI

這項研究比較六種大型語言模型在韓國醫療體系回答RhD血型輸血問題的表現,GPT-4o雖然表現最好,但準確度還是輸給人類專家。即使用提示工程也只能小幅提升結果。未來LLMs(尤其是GPT-4o)有機會輔助臨床決策,但還無法完全取代醫師。 PubMed DOI

這篇研究探討大型語言模型(LLM)如何幫助病人解讀連續血糖監測(CGM)數據,協助糖尿病管理。作者建立了開源的CGM數據問答基準,評估多種LLM表現,並指出LLM在解讀穿戴式健康數據上還有進步空間,這些方法也能應用到其他穿戴裝置。 PubMed DOI

藥物基因學有助推動個人化醫療,但因醫師和病患對相關知識不足,推廣進展緩慢。雖然像GPT-4這類AI聊天機器人有潛力協助縮短知識落差,但目前仍常出錯,臨床應用有風險。作者設計測驗評估AI回答藥物基因學問題的能力,發現新一代模型雖進步,但還不夠穩定,暫時不適合直接用在臨床。這套評測標準未來可作為改進AI的參考。 PubMed DOI

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現,結果以Claude最優(正確率95%),DeepSeek和Grok次之(93%),ChatGPT(90%)、Gemini(88%),Le Chat最低(70%)。題目難度和品質對結果沒明顯影響。整體來說,這些AI工具,尤其是Claude、DeepSeek和Grok,能當作醫學教育的輔助,但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

這項研究比較多款大型語言模型(LLM)在核子醫學題目的表現,發現結合檢索增強生成(RAG)的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力,但對複雜指引和影像題還不夠理想,未來還需再優化才能安心用於醫療領域。 PubMed DOI

這項研究發現,GPT-4 和 GPT-4o 在韓國輸血醫學執照考試(無論韓文或英文題目)表現穩定且優於標準,其他模型則較不穩定,特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說,GPT-4/4o 在專業內容上可靠,但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI