LLM 相關三個月內文章 / 第 139 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

大型語言模型(LLMs)在醫學考試中表現出色,但其元認知能力尚未充分檢視。我們開發了MetaMedQA基準測試,評估模型的信心分數和元認知任務。研究顯示,雖然模型在回答問題上表現良好,但在識別知識空白方面存在重大缺陷,經常自信地提供錯誤答案。這種脫節可能在臨床環境中帶來風險,因此需要改進評估框架,以提升LLM在臨床決策支持系統中的可靠性。 相關文章 PubMed DOI

這項研究探討了人類評審、重複量化分析(RQA)和AI檢測工具GPTZero在辨別人類與AI生成的個人陳述的有效性,特別針對物理治療師教育計畫的申請。研究分析了50份梅奧診所的申請者陳述與50份由Google Gemini生成的陳述。結果顯示,人類評審在辨識上表現一致且準確,而RQA和GPTZero也各有優勢。研究強調,未來應結合這些方法,以提升對個人陳述的評估,確保學術誠信。 相關文章 PubMed DOI

這項研究探討了開放權重的大型語言模型(LLMs)在從放射科報告中提取結構化內容的效果,並與傳統的規則系統及封閉權重模型(如GPT-4)進行比較。研究結果顯示,GPT-4o在英語報告中表現最佳,F1分數達92.4%,而Mistral-Large在德語數據集中也表現優異。當使用1000份報告進行微調時,開放權重LLMs的表現顯著超過BERT。結論指出,開放權重模型在結構化報告數據方面具有效能,特別是在中等數據量微調時。 相關文章 PubMed DOI

LLaMA系列語言模型,特別是最新的LLaMA3,因其在多項任務上的優異表現而受到矚目,這得益於其在超過15兆個標記上的預訓練。隨著低位元量化在資源有限環境中的重要性增加,本研究探討了LLaMA3在1-8位元量化下的表現。研究評估了十種後訓練量化和LoRA微調方法,並檢視了LLaVA-Next-8B模型在超低位元(2-4位元)下的效果。結果顯示,低位元量化會顯著影響模型性能,特別是在超低位元情況下,突顯未來模型開發需解決的性能差距。 相關文章 PubMed DOI

NaviGPT是一個創新的導航系統,專為視覺障礙者設計,結合了LiDAR障礙物檢測、震動反饋和大型語言模型(LLMs)。與傳統解決方案需切換多個應用不同,NaviGPT提供即時的環境資訊,簡化使用者體驗,讓導航更有效率和直觀。此外,透過位置和感測器數據,NaviGPT能解決回應延遲問題,確保在各種環境中提供即時支援。 相關文章 PubMed DOI

這項研究評估了GPT-4在解讀美國和中國骨關節炎治療指導方針的能力,以及在骨科病例診斷和管理上的有效性。研究結果顯示,GPT-4對指導方針的正確匹配率為46.4%,準確度得分為4.3±1.6,完整性得分為2.8±0.6。在模擬案例中,超過88%的回應被認為是全面的。總體來看,GPT-4在骨科實踐和病人教育上有潛力,但在臨床應用上仍需進一步驗證。 相關文章 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-4.0、ChatGPT-3.5和Google Gemini)在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示,ChatGPT-4.0和Google Gemini的準確率較高,分別為11項和9項建議。雖然所有機器人都提供了補充資訊,但修改需求各異,且可讀性方面Google Gemini表現較佳。整體而言,這些工具在小兒骨科病人教育上仍需改進。 相關文章 PubMed DOI

這篇論文探討了名為Lilobot的電腦代理,旨在透過角色扮演模擬協助荷蘭兒童求助熱線的新諮詢師訓練。Lilobot模擬一位遭霸凌的孩子,讓受訓者練習五階段模型的對話策略。研究發現,使用Lilobot的訓練後,諮詢師的自我效能感反而下降,但反饋指出Lilobot有潛力成為有效的訓練工具。論文還提出三個未來研究方向,包括增強情感整合、提供指導性反饋,以及利用大型語言模型進行更動態的對話。 相關文章 PubMed DOI

在臨床上,區分脊椎結核(STB)和脊椎腫瘤(ST)相當困難。本研究評估了多種機器學習模型及ChatGPT-4的有效性,分析了143例STB和153例ST的病例。結果顯示,梯度提升機(GBM)表現最佳,訓練隊列的敏感性達98.84%,特異性100%;測試隊列的敏感性為98.25%,特異性91.80%。相比之下,ChatGPT-4的敏感性僅70.37%,特異性90.65%。總體來看,GBM在區分STB和ST方面非常有效,而ChatGPT-4的診斷表現則不太可靠。 相關文章 PubMed DOI

多學科團隊(MDTs)在癌症護理中非常重要,但需要專家投入大量時間,導致醫療成本上升。最近大型語言模型(LLMs)的進展,可能提升臨床決策的效率,並降低MDT的相關成本。 一項針對171名新診斷前列腺癌患者的研究比較了兩個LLMs(chatGPT-4和Claude-3-Opus)與MDT會議的建議。結果顯示,LLMs的遵循率高達93%。不一致的情況主要因為臨床資訊不足。研究顯示,LLMs能生成準確的治療建議,未來有潛力簡化MDT流程,讓專家專注於更複雜的案例,並降低醫療成本。 相關文章 PubMed DOI