LLM 相關三個月內文章 / 第 44 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了三個生成式人工智慧模型—ChatGPT、Gemini 和 Copilot—在回答美國醫學執照考試的多選題準確性。結果顯示,ChatGPT的準確率最高,達70%,與醫學教師的回答一致性強。Copilot的準確率為60%,而Gemini最低,僅50%。整體一致性較差,顯示AI模型在醫學教育中的表現仍需謹慎對待。雖然ChatGPT表現較好,但仍不及合格的醫學教師。 相關文章 PubMed DOI 推理

這項回顧性研究評估了不同ChatGPT模型(如GPT-3.5、GPT-4等)在預測急診病人診斷的表現。研究針對30名病人,發現GPT-3.5在前三名鑑別診斷的準確率高達80%,但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過,所有模型在處理非典型案例時仍面臨挑戰,顯示其在急診環境中的應用限制。 相關文章 PubMed DOI 推理

這項研究探討了對話式人工智慧ChatGPT-4在解答正畸病人常見問題的有效性,並與兩位正畸醫師的回答進行比較。研究中,ChatGPT在30個問題中有61個案例排名第一,平均排名為1.69,明顯優於正畸醫師的排名(醫師A: 2.23,醫師B: 2.08)。兩位醫師之間的排名差異不大,而ChatGPT的排名與評估者共識有強正相關(Spearman係數0.69)。總體來看,研究建議ChatGPT-4在回答病人常見問題上可能更有效,尤其是在正畸領域。 相關文章 PubMed DOI 推理

這項研究探討了大型語言模型(LLM),特別是ChatGPT 3.5,分析電子健康紀錄(EHR)筆記的潛力,判斷全膝關節置換術(TKA)患者在一年後是否達到膝關節骨關節炎結果評分的最小臨床重要差異(MCID)。研究發現,ChatGPT 3.5的敏感性高達97%,但特異性僅33%,整體準確率為65%。相比之下,外科醫生的敏感性為90%,特異性63%,準確率76%。結論指出,LLM在識別改善患者方面表現良好,但仍需改進以提升其臨床應用的準確性。 相關文章 PubMed DOI 推理

這項研究評估了GPT-4和GPT-4o在根據TI-RADS指引識別甲狀腺結節特徵的表現,使用了202張超音波影像。結果顯示,GPT-4在大多數類別中具高特異性但低敏感性,對低風險結節的敏感性僅25%,而高風險結節的敏感性為75%。雖然在識別平滑邊緣方面表現較好,但在其他特徵上則不理想。整體來看,這些模型在臨床應用前仍需改進和驗證。 相關文章 PubMed DOI 推理

這項研究評估了使用大型語言模型(LLM)在大型學術醫院中正確路由程序請求的效果與成本。研究發現,GPT-4模型的準確率高達96.4%,顯著優於其他模型,但在晚上和週末的表現較差。使用OpenAI API時,GPT-4每個請求約$0.03,而GPT-3.5-turbo則便宜得多,僅需$0.0006。整體來看,這項研究顯示低成本的提示式LLMs在醫院中能有效協助醫生和協調員管理請求,並減少培訓需求。 相關文章 PubMed DOI 推理

這項研究介紹了一種名為MLBispec的新型AI方法,專注於增強對話中的情感識別,特別是情感氣候的識別。MLBispec透過雙頻譜分析提取語音信號特徵,並結合情感動態進行處理。測試結果顯示,該方法在多個數據集上表現優於現有深度學習技術,對喚起的準確率達82.6%,對價值的準確率為75.4%。此外,跨語言實驗證實了其穩健性,顯示MLBispec能有效識別對話中的情感氣候,對醫療保健、人機互動等應用有顯著提升。 相關文章 PubMed DOI 推理

CRISPR-Cas9 系統雖然改變了基因組編輯,但 Cas9 的脫靶效應仍是臨床應用的挑戰。本研究評估了來自 *Faecalibaculum rodentium* 的 FrCas9 變體,並與 SpCas9 和新合成的 OpenCRISPR-1 進行比較。結果顯示,FrCas9 的目標效率優於其他兩者,且脫靶效應顯著較少。將 TREX2 與 FrCas9 融合後,能進一步減少缺失和易位,提高基因組穩定性。我們篩選了 1903 個 sgRNA,為 21 個 CGT 相關基因識別最佳 sgRNA,顯示 FrCas9 是一種高效且特異的基因編輯工具。 相關文章 PubMed DOI 推理

這項研究聚焦於肽的自組裝,肽是形成多種結構的重要生物分子。雖然過去的研究探討了化學成分和外部條件對自組裝的影響,但缺乏全面的分析。為了解決這個問題,作者建立了一個肽組裝資料庫,結合專家整理和大型語言模型進行文獻挖掘,編輯了超過1000個實驗條目,詳細記錄肽的序列和條件。開發的機器學習模型達到超過80%的準確率,並微調了GPT模型以提升文獻挖掘的表現,進一步理解肽自組裝的機制。 相關文章 PubMed DOI 推理

這項研究比較了GPT-4和Google在腕隧道手術(CTS)常見問題上的回應差異。主要發現包括: 1. **問題類型**:兩者都提供事實性資訊,但Google更注重技術細節。 2. **可讀性**:Google的回應可讀性較高,Flesch閱讀分數更好。 3. **回應長度**:Google的答案通常較短。 4. **數字準確性**:GPT-4的數字回應範圍較廣。 總體來說,GPT-4提供更詳細的技術見解,有助於病患教育,而Google則提供更易懂的資訊。這研究強調了醫療情境中AI與搜尋引擎的資訊傳遞差異。 相關文章 PubMed DOI 推理