原始文章

LabQAR 是全新人工整理的實驗室檢驗參考值資料集,收錄 550 筆、共 363 種檢驗項目,並附詳細註解和多選題,協助自動化解讀檢驗結果。研究發現 GPT-4o 在這項任務表現最佳,顯示大型語言模型有助於臨床決策與複雜數據處理。 PubMed DOI


站上相關主題文章列表

這項研究聚焦於「Lab Explainer」,一個專為病患設計的ChatGPT,旨在簡化複雜的實驗室檢測結果,提升病患的教育。Lab Explainer運用先進的自然語言處理技術,分析實驗室數據,提供清晰的解釋和背景資訊。研究顯示,這個工具能顯著改善病患對檢測結果的理解,幫助他們更積極參與醫療保健。總之,Lab Explainer是病患獲得實驗室檢測解釋的重要資源。 PubMed DOI

藥物基因組學在精準醫療中扮演重要角色,但因醫師和病人對此認識不足,實施進展緩慢。大型語言模型(如GPT-4)有潛力提供即時醫療資訊,但也可能產生不準確的內容,對臨床造成風險。我們進行了測試,評估聊天機器人在藥物基因組學上的表現,結果顯示雖然新模型表現較好,但仍未達臨床應用標準。我們的基準將成為未來進步的重要資源。 PubMed DOI

這項研究評估了九個大型語言模型(LLMs)在醫學領域的表現,特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗,結果顯示GPT-4o的準確率最高,達81.7%,其次是GPT-4 Turbo(76.1%)和Claude 3 Opus(74.3%)。這些模型在數字和計算任務上表現優異,顯示出它們能有效運用現有知識協助醫療專業人員進行決策,未來有潛力成為醫療輔助工具。 PubMed DOI

這項研究探討實驗室檢測結果對大型語言模型(LLMs)在醫學鑑別診斷(DDx)準確性的影響。研究人員從50個病例報告中創建臨床小插曲,評估了五個LLMs的表現,包括GPT-4、GPT-3.5等。結果顯示,加入實驗室數據可提高DDx準確性多達30%。其中,GPT-4表現最佳,Top 1準確率達55%,寬鬆準確率79%。特別是GPT-4和Mixtral的改進顯著,這些模型能有效解讀肝功能和代謝面板等檢測結果。 PubMed DOI

這項研究比較六種大型語言模型在韓國醫療體系回答RhD血型輸血問題的表現,GPT-4o雖然表現最好,但準確度還是輸給人類專家。即使用提示工程也只能小幅提升結果。未來LLMs(尤其是GPT-4o)有機會輔助臨床決策,但還無法完全取代醫師。 PubMed DOI

這篇研究探討大型語言模型(LLM)如何幫助病人解讀連續血糖監測(CGM)數據,協助糖尿病管理。作者建立了開源的CGM數據問答基準,評估多種LLM表現,並指出LLM在解讀穿戴式健康數據上還有進步空間,這些方法也能應用到其他穿戴裝置。 PubMed DOI

藥物基因學有助推動個人化醫療,但因醫師和病患對相關知識不足,推廣進展緩慢。雖然像GPT-4這類AI聊天機器人有潛力協助縮短知識落差,但目前仍常出錯,臨床應用有風險。作者設計測驗評估AI回答藥物基因學問題的能力,發現新一代模型雖進步,但還不夠穩定,暫時不適合直接用在臨床。這套評測標準未來可作為改進AI的參考。 PubMed DOI

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現,結果以Claude最優(正確率95%),DeepSeek和Grok次之(93%),ChatGPT(90%)、Gemini(88%),Le Chat最低(70%)。題目難度和品質對結果沒明顯影響。整體來說,這些AI工具,尤其是Claude、DeepSeek和Grok,能當作醫學教育的輔助,但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

這項研究比較多款大型語言模型(LLM)在核子醫學題目的表現,發現結合檢索增強生成(RAG)的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力,但對複雜指引和影像題還不夠理想,未來還需再優化才能安心用於醫療領域。 PubMed DOI

這項研究發現,GPT-4 和 GPT-4o 在韓國輸血醫學執照考試(無論韓文或英文題目)表現穩定且優於標準,其他模型則較不穩定,特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說,GPT-4/4o 在專業內容上可靠,但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI