LLM 相關三個月內文章 / 第 48 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了OpenAI的ChatGPT-3.5與傳統網路搜尋引擎在提供Randleman標準資訊的準確性。23名醫學生各花10分鐘使用ChatGPT-3.5,結果顯示只有26.1%的學生獲得正確定義,而100%的學生在網路搜尋中找到準確資訊。ChatGPT-3.5還有17.4%的學生錯誤識別標準,4.3%創造了虛構的「Randleman症候群」,52.2%則完全沒有定義。研究結論指出,對於這個醫學問題,網路搜尋引擎的可靠性明顯高於ChatGPT-3.5,提醒使用AI工具時需謹慎。 相關文章 PubMed DOI

這項研究探討了ChatGPT在2021至2023年間進行的進步測試中回答醫學問題的表現。研究人員將測試問題給ChatGPT 3.5,並與來自120多所巴西大學的醫學生進行比較。結果顯示,ChatGPT在三年的平均準確率分別為69.7%、68.3%和67.2%,均超過醫學生。特別是在公共衛生方面,ChatGPT的平均得分達77.8%。這顯示出ChatGPT在醫學問題的回答準確性上超越了人類學生,包括即將畢業的醫學生。 相關文章 PubMed DOI

這篇社論探討了「ChatGPT和生成式人工智慧(AI)在醫療安全教育中的潛力與限制」,指出AI在川崎病(KD)領域的重要性。文中提到三大應用:首先,機器學習(ML)可用於KD診斷,已開發多種臨床預測模型;其次,基因信號計算工具箱能幫助識別KD及監測相關臨床特徵;最後,深度學習(DL)技術在心臟超音波檢測上表現優異,與專家相當。社論強調需利用更多醫療數據提升AI決策準確性,並關注患者隱私及責任問題,期待AI能改善KD的診斷與治療。 相關文章 PubMed DOI

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 相關文章 PubMed DOI

隨著病人訊息需求增加,醫療提供者在處理緊急醫療問題上面臨挑戰。為了解決這個問題,我們開發了一個整合於電子健康紀錄的人工智慧系統,能優先處理病人訊息,確保及時審查。使用基於BERT的大型語言模型,我們訓練了超過40,000條病人訊息,並在7,260條專家審核的訊息上測試,表現優異。整合後,對於高優先級訊息的未讀時間顯著減少,特別是在非營業時間。未來將擴大應用範圍,提升護理質量與安全性。 相關文章 PubMed DOI

這項研究評估了三款熱門聊天機器人—ChatGPT、Claude 和 Bard—在回答有關近視預防和控制的公共健康問題上的表現。研究提出了十九個問題,並由四位獨立評審根據全面性、準確性和相關性進行評分。結果顯示,ChatGPT 提供了最詳細的回答,得分最高,Bard 和 Claude 次之。雖然所有聊天機器人的得分都超過 4 分,但研究也指出它們存在提供虛假資訊的風險。因此,未來需要制定標準和持續監測,以提升聊天機器人的有效性。 相關文章 PubMed DOI

這項研究評估了使用 ChatGPT-4 技術的 Microsoft Bing 在分析腹部 CT 和 MRI 圖像的表現。共評估 80 張圖像,發現 Bing 在 CT 的準確率為 95.4%,MRI 為 86.1%。雖然在基本識別上表現良好,但在異常解釋方面仍有不足,僅在 10.7% 的情況下提供正確診斷。研究建議大型語言模型可輔助放射科醫師,但需了解其能力與限制,以提升臨床應用的有效性。這為未來放射學診斷工具的研究奠定基礎。 相關文章 PubMed DOI

這篇論文探討大型語言模型(LLMs)與人類語意理解的關係,特別是在具身認知的背景下。具身認知的支持者認為,LLMs 只依賴文本訓練,缺乏感官經驗的連結,這對人類理解很重要。不過,論文指出人類的認知結合了具身經驗和語言學習,語言在塑造我們對世界的理解中扮演關鍵角色。因此,LLMs 可以反映語言作為語意信息來源的豐富性,並強調語言如何在缺乏直接感官經驗的情況下增強認知能力,這也有助於理解具身認知與人工智慧的互動。 相關文章 PubMed DOI

這篇文章探討生成性人工智慧(AI)在教育中的應用,強調與實體世界互動的重要性。特別是透過蒙特梭利等教學法,促進探索與有組織環境的互動。作者運用主動推理框架,將學習視為一種認知覓食的過程,並強調修正預測誤差的必要性。他們認為生成性AI能增強學習環境的準備度,並在具身與無具身智慧之間創造新的協同效應,這是AI背景下具身認知的更大討論的一部分。 相關文章 PubMed DOI

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。 相關文章 PubMed DOI