LLM 相關三個月內文章 / 第 79 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究探討大型語言模型(LLMs),特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行,分析了13個臨床案例,並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示,ChatGPT-4的表現(52.1%)優於Copilot(47.9%),但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳,但整體上,醫生對LLMs的評價為一般,顯示出其在臨床決策中的限制,需進一步研究以提升AI的應用能力。 相關文章 PubMed DOI 推理

這項研究評估了GPT-4o模型在分析647名患者的肺結節長期CT掃描的效果。結果顯示,該模型在預測肺結節的惡性程度上達到0.88的準確率,與病理結果相符;在結節大小測量上,與放射科醫生的結果一致性高達0.91。此外,六位放射科醫生的評估中,GPT-4o在捕捉結節特徵變化方面獲得了4.17的高分。整體來看,研究顯示GPT-4o能有效追蹤肺結節的變化,對臨床決策提供了重要支持。 相關文章 PubMed DOI 推理

ChatGPT的進步對醫學教育產生了顯著影響,透過創新的評估和學習工具,提升醫生的評估效果。一項研究評估了ChatGPT-3.5 Turbo和ChatGPT-4o mini在2023年葡萄牙語專科訓練入學考試中的表現。結果顯示,ChatGPT-4o mini的準確率達65%,超越了ChatGPT-3.5 Turbo及部分醫學考生的表現。這強調了ChatGPT在醫學教育中的潛力,但也提醒需在教師監督下謹慎使用,並需進一步研究。 相關文章 PubMed DOI 推理

AMP-Designer 是一種創新的方法,利用大型語言模型設計抗微生物肽 (AMPs)。在短短 11 天內,成功設計出 18 種對革蘭氏陰性菌有效的 AMP,體外測試成功率高達 94.4%。其中兩個候選者展現出強大的抗菌活性、低血毒性及在人體血漿中的穩定性,並在小鼠肺部感染研究中顯著減少細菌負荷。整個過程從設計到驗證僅需 48 天,特別適合針對特定細菌株,顯示出對抗抗生素抗藥性的潛力。 相關文章 PubMed DOI 推理

這項研究評估了兩個AI聊天機器人,ChatGPT和ChatSonic,針對腹腔鏡修補腹股溝疝氣的問題所提供的回答質量。研究者提出十個問題,並由兩位外科醫生使用全球質量評分(GQS)和修改版的DISCERN評分來評估。結果顯示,ChatGPT的回答質量較高,獲得了良好的評分,而ChatSonic的表現稍遜。雖然兩者都有潛力,但在可靠性和質量上的不一致性,顯示在臨床使用前仍需進一步驗證。 相關文章 PubMed DOI 推理

這項研究探討了沒有路易小體的阿茲海默症患者中,帕金森症的發生情況。結果顯示,在635名患者中,有9.7%出現帕金森症,這與黑質神經元的減少有關,而這種減少並非由tau病理引起,而是與TDP-43病理有關。研究指出,識別這種帕金森症對於改善阿茲海默症患者的治療策略非常重要,特別是在癡呆症出現帕金森症狀時,需考慮阿茲海默症的可能性。 相關文章 PubMed DOI 推理

這項研究評估了八個免費的大型語言模型(LLM)在回答慢性新生兒肺病(CNLD)和居家氧氣治療(HOT)問題上的表現。共整理了二十個問題,並由三位新生兒科醫生評估這些模型的回應準確性。結果顯示,Bing Chat和Claude 3.5 Sonnet表現最佳,更新的模型如ChatGPT-4o mini和Gemini 2.0 Flash Experimental也表現不錯。雖然這些模型在提供資訊上有潛力,但仍需專家監督以避免錯誤資訊。 相關文章 PubMed DOI 推理

這篇評論探討大型語言模型(LLMs)的推理過程,特別是注意力頭的角色。雖然LLMs在長文本理解和數學推理上表現接近人類,但其運作仍然像黑箱一樣難以理解。作者提出一個四階段框架,分析注意力頭的功能,並回顧相關研究,強調實驗方法的重要性。評論也總結了評估方法和基準,並指出目前研究的限制,建議未來的探索方向,以增進對LLMs推理能力的理解。 相關文章 PubMed DOI 推理

在機器學習中,平衡預測準確性、模型可解釋性和領域泛化是一大挑戰。我們研究了77,640個配置中的120個可解釋模型和166個不透明模型,進行文本分類以識別文本複雜性,並預測讀者的處理難度感知。結果顯示,任務1中準確性與可解釋性之間存在權衡,但在任務2中,可解釋模型在領域泛化上表現更佳。加入乘法互動也增強了可解釋模型的能力。我們強調使用大型數據集訓練,並整合外部理論與分佈外數據以驗證模型,確保穩健性。 相關文章 PubMed DOI 推理

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果,針對常見的上肢和下肢骨科疾病進行分析。結果顯示,ChatGPT-3.5的可讀性僅有2%和4%達標,而ChatGPT-4.0則有54%達標,顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異,但兩者仍被視為不可靠,無法完全取代傳統病人教育方式,應作為醫療提供者的輔助工具。 相關文章 PubMed DOI 推理