LLM 相關三個月內文章 / 第 35 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

對於使用真實臨床筆記來識別中心靜脈導管相關血流感染(CLABSI)的安全大型語言模型進行評估,顯示出令人鼓舞的結果。即使沒有進行預訓練,該模型也能迅速評估並準確識別CLABSI,且具備高敏感性。研究結果顯示,若能獲得更大規模的病患資訊數據集,模型的表現可能會進一步提升。 相關文章 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 相關文章 PubMed DOI

大型語言模型(LLMs)在研究和商業應用中越來越受重視,現在的趨勢是使用參數高效微調(PEFT)方法來開發較小的專用模型,而不需完全微調。研究發現,LoRA在各種任務中表現優異,常與完全微調的模型相當,顯示PEFT方法在臨床決策中有效,特別適合低成本運算。小型模型的優勢如快速處理和低訓練成本,超越大型LLMs的性能。此外,領域特定的預訓練對小型模型也相當重要。完整代碼可在GitHub上找到。 相關文章 PubMed DOI

這項研究探討了基於Transformer的預訓練大型語言模型(LLMs)在生物醫學領域的適應性與表現,特別針對自然語言推理(NLI)和命名實體識別(NER)兩個任務。研究旨在了解模型在這些任務上的表現與其捕捉資訊的能力之間的關係。分析了編碼器和解碼器基礎的LLMs的內部編碼及注意力機制,並比較了不同數據量微調前後的效果。結果顯示,模型的有效性與其內部機制中的特定模式有關,並提供了LLMs在生物醫學領域如何處理知識的見解。研究源代碼已在GitHub上公開。 相關文章 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 相關文章 PubMed DOI

這項研究評估了四款AI聊天機器人(ChatGPT 3.5、ChatGPT 4.0、Bard和Bing)在牙髓及根尖周圍疾病診斷和治療建議的準確性。研究創建了十一個案例,結果顯示Bing和ChatGPT 4.0的診斷準確率最高,分別為86.4%和85.3%。在治療建議方面,ChatGPT 4.0和Bing表現相似,均超過90%。整體一致性率達98.29%,但仍需牙科專業人員謹慎解讀這些AI的回應,因為存在不一致性。 相關文章 PubMed DOI

一項研究評估了十一個大型語言模型(LLMs),使用40個專門的錯誤信念任務,這些任務對於評估人類的心智理論(ToM)非常重要。結果顯示,較舊的模型無法解決任何任務,而GPT-3-davinci-003和ChatGPT-3.5-turbo僅解決了20%。相比之下,ChatGPT-4的成功率達到75%,與6歲兒童的表現相當。這顯示出心智理論的能力可能是LLMs語言能力增強的副產品,預示著更先進的人工智慧的崛起,帶來正負面影響。 相關文章 PubMed DOI

在離線增強學習中,探索與利用的平衡對政策表現和樣本效率至關重要。為了解決這個問題,提出了一種新演算法,叫做歷史決策正則化最大熵(HDMRME)。這個演算法結合了最大熵增強學習框架和歷史決策正則化,旨在提升政策的利用能力。理論分析證明了其收斂性,並探討了探索與利用的權衡。實驗結果顯示,HDMRME在Mujoco和OpenAI Gym的多個連續動作控制任務中,樣本效率和整體表現均優於其他先進演算法。 相關文章 PubMed DOI

證據等級 V 通常指的是專家意見或個案證據,這在循證醫學中被視為最低的證據等級。這個等級通常是基於從業者的經驗或共識聲明,而不是嚴謹的科學研究。如果你需要更具體的信息或指導,關於如何為你的文章分配證據等級,我建議你查看期刊的目錄或在線的作者指南,以獲取詳細的標準和定義。 相關文章 PubMed DOI

這項研究比較了ChatGPT和Bing AI在回答腎結石治療問題的表現,依據美國泌尿學會(AUA)的指導方針進行。結果顯示,ChatGPT在回應的清晰度和相關性上優於Bing AI,但Bing AI則提供了參考資料,讓其在資料來源質量上得分較高。兩者都未提供術前檢測建議,且在某些治療建議上與指導方針不符。研究建議進一步探討這些聊天機器人在泌尿醫療的應用潛力。 相關文章 PubMed DOI