LLM 相關三個月內文章 / 第 13 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了ChatGPT-3.5和ChatGPT-4o在日本國家牙科考試中的表現,分析了1399道問題。結果顯示,ChatGPT-4o的正確回答率達84.63%,明顯高於ChatGPT-3.5的45.46%。特別是在口腔外科、病理學、藥理學和微生物學等領域,ChatGPT-4o的表現更為優異。這些結果顯示,ChatGPT-4o可作為牙科教育和考試準備的有用輔助工具,提升臨床推理和牙科知識的能力。 相關文章 PubMed DOI

在科學研究中,隨著出版物數量的增加,管理變得愈加困難。為了解決這個問題,我們開發了一個高通量流程,利用ChatGPT從超過24,000篇秀麗隱杆線蟲和150,000篇果蠅的文獻中提取資訊,成功識別了超過200,000個C. elegans的互動及近120萬個果蠅的互動,建立了全面的生物圖譜。我們還創建了一個可搜尋的線上平台,方便使用者訪問這些知識網絡,並突顯了重要的生物途徑。這些數據庫可在worm.bio-map.com和drosophila.bio-map.com訪問。 相關文章 PubMed DOI

這項研究評估了幾款先進的多模態大型語言模型(LLMs),如GPT-4o、Claude 3 Opus和Gemini 1.5 Pro,針對日本核醫學考試(JNMBE)問題的表現。分析了92道問題,結果顯示在使用文字和圖片的情況下,模型的準確性並無顯著差異。GPT-4o和Claude 3 Opus在多模態下的準確率為54.3%,而僅用文字時達71.7%。Gemini 1.5 Pro的表現則較差。研究指出,當前LLMs在核醫學的診斷能力不足,需加強圖片資訊的使用,以提升其在教育和實踐中的有效性。 相關文章 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)生成內容為基礎的反饋,以提升Progress Test Medizin考試的反饋效果,超越單純的數字分數。研究比較了兩個受歡迎的LLM在生成相關見解上的表現,並調查醫療從業人員和教育工作者對LLM能力及其反饋實用性的看法。結果顯示兩者表現相似,其中一個付費的稍優,另一個則免費。參與者認為反饋相關,並願意未來使用LLM。研究結論指出,雖然LLM生成的反饋不完美,但仍可作為傳統數字反饋的有價值補充。 相關文章 PubMed DOI

這項研究針對抽象與推理語料庫(ARC)提出新方法,旨在測試人工智慧的抽象推理能力。儘管已有許多努力,現有的神經網絡演算法在解決ARC任務上仍面臨挑戰,常需依賴複雜的手工規則。研究者調整了DreamCoder神經符號推理解決器,並引入感知抽象與推理語言(PeARL)來增強能力。他們還開發新方法讓大型語言模型(LLMs)能解決ARC任務,顯示出不同的解決方式。結果顯示,神經網絡方法仍不及手工解決方案,未來可透過理解人類策略來推進人工智慧發展。 相關文章 PubMed DOI

生成式人工智慧(AI)及大型語言模型(LLMs)在健康技術評估(HTA)中的應用越來越受到重視,主要可用於系統性文獻回顧、實證數據分析及健康經濟模型。AI能自動化文獻回顧過程,提高效率;在實證數據方面,能分析大量資料,提供臨床決策的洞見;在健康經濟模型中,則可支持模型的整體發展。然而,這些應用仍面臨科學嚴謹性、可靠性及數據隱私等挑戰,需謹慎整合並持續評估其效益與風險。 相關文章 PubMed DOI

這項研究評估了四款熱門聊天機器人(ChatGPT-4、Bard、Perplexity 和 Claude 2)在與認證胸腔外科醫生進行考試的表現。結果顯示,聊天機器人的中位得分為1.06,而外科醫生為1.88,差異顯著(p=0.019)。外科醫生在大多數情境中表現優於聊天機器人,且聊天機器人的重大失誤率較高(0.50對0.19;p=0.016)。總體來看,研究認為聊天機器人的表現顯著不如外科醫生,提醒在臨床決策中應謹慎使用人工智慧。 相關文章 PubMed DOI

這項研究評估了一個安全的機構大型語言模型(LLM)在增強MRI脊椎檢查申請表及自動協議方面的效果。研究分析了218名患者的250份申請表,結果顯示LLM增強的申請表在臨床資訊充分性上達93.6-96.0%,遠高於臨床醫師的46.8-58.8%。LLM在78.4%的案例中提供正確的MRI協議建議,雖然低於放射科醫師的準確率,但在識別脊椎器械方面表現優異,準確率達95.1%。總體而言,LLM顯著提升了MRI申請表的質量,顯示出優化放射科醫師工作流程的潛力。 相關文章 PubMed DOI

Oncointerpreter.ai 是一個互動工具,幫助癌症患者理解診斷和治療選擇。它提供個性化的基因組和病理數據摘要,讓患者能更有效地與醫療團隊溝通。這個工具利用先進的語言模型,能處理去識別化的報告,提取關鍵資訊並即時回答治療相關問題。此外,還能根據患者的病情和地點,找出相關的臨床試驗。基準測試顯示其回應一致且準確,目的是增強患者的理解,促進知情討論。更多資訊可至其 GitHub 頁面查詢。 相關文章 PubMed DOI

這項研究評估大型語言模型(LLMs)在前列腺MRI報告中分配PI-RADS類別的效果。研究對象為100名未接受活檢的患者,MRI報告由兩位泌尿放射科醫師分類,並與GPT-3.5、GPT-4、Bard和Gemini的結果進行比較。結果顯示,放射科醫師的準確率高達95%和90%,而GPT-3.5和Bard僅67%。更新的GPT-4和Gemini分別提高至83%和79%。整體而言,LLMs在準確性上仍不及人類醫師,臨床應用需謹慎考量。 相關文章 PubMed DOI