LLM 相關三個月內文章 / 第 95 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了兩個人工智慧模型,ChatGPT-4 和 Gemini,在回答病毒學多選題的表現,涵蓋英語和阿拉伯語。研究使用 CLEAR 工具分析了 40 道題目的回答正確性,結果顯示 ChatGPT-4 在兩種語言中均優於 Gemini,英語正確率分別為 80% 和 62.5%,阿拉伯語則為 65% 和 55%。兩者在較低認知領域表現較佳,結果顯示人工智慧在醫療教育中的潛力,並強調了提升多語言有效性的必要性。 相關文章 PubMed DOI

這項研究探討了ChatGPT在口腔與顏面外科考試中對牙科本科生的自動化作文評分(AES)可靠性,並與人類評估者進行比較。69名新加坡國立大學的學生參加了考試,結果顯示第一道題目的AES與人類評分有強相關性,而第二道題目則中等相關。評分者之間的一致性和可靠性都很高。研究指出,ChatGPT在作文評分上有潛力,但設計有效的評分標準對於提升可靠性非常重要。隨著進一步驗證,ChatGPT可望協助自我評估及自動化評分。 相關文章 PubMed DOI

這項研究探討了現代大型語言模型(LLMs),如GPT-3.5、GPT-4和Llama 3,在評估精神分裂症的正式思維障礙方面的有效性。研究發現,這些模型生成的評分與專家評分相當一致,顯示出不錯的準確性。不過,LLMs的評分在準確性和一致性上存在權衡,傳統自然語言處理方法則較為一致。研究者建議透過參數調整和集成方法來改善這種不一致性,並討論了將這些技術應用於精神評估的最佳實踐。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs)在識別接受免疫檢查點抑制劑(ICI)治療患者的免疫相關不良事件(irAEs)中的應用,並與傳統手動裁定及ICD代碼進行比較。研究分析了超過12年的住院紀錄,發現LLMs在檢測irAEs的敏感性顯著高於ICD代碼,且效率更佳,平均每份病歷僅需9.53秒。總體來說,LLMs被認為是檢測irAEs的有效工具,提供更高的敏感性和效率。 相關文章 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT,如何應用於血液學實務,並指出其優缺點。透過系統性回顧2022年12月後的研究,分析了10項來自PubMed、Web of Science和Scopus的研究,並使用QUADAS-2工具評估偏差。結果顯示,LLMs在血紅蛋白病的診斷準確率可達76%,顯示其在診斷和教育上的潛力。然而,表現不一致引發對其可靠性的擔憂,且研究範圍和數據集的限制可能影響結果的普遍性。因此,LLMs在臨床應用中仍需進一步測試和監測,以確保準確性和適應性。 相關文章 PubMed DOI

這篇評論著重於放射學中臨床評估人工智慧(AI)的各種結果指標,幫助醫師理解並應用這些指標。除了常見的二元分類和檢測性能指標,還探討了多類別分類、生成式AI模型的評估,以及大型語言模型。評論也提到以病人為中心的結果測量,目的是提供清晰易懂的解釋,協助醫師在放射學中有效運用多樣的AI評估工具。 相關文章 PubMed DOI

這項研究專注於從非結構化的臨床筆記中提取與腫瘤學相關的結構化資訊,特別是癌症藥物與症狀負擔的關係。研究人員建立了名為CACER的資料集,包含超過48,000個醫療問題和藥物事件的詳細註解。經過微調的BERT和Llama3模型在事件提取上表現最佳,F1分數分別為88.2和88.0,而GPT-4在這些任務中的表現最差。這顯示微調模型在特定任務上更有效,CACER資料庫為未來的醫療資訊提取研究提供了重要資源。 相關文章 PubMed DOI

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 相關文章 PubMed DOI

在2024年進行的一項研究評估了人類與人工智慧(AI)生成的論文在中風護理領域的質量。這項競賽共收到34篇論文,經《Stroke》期刊的專家審查。結果顯示,人類與AI論文的整體評分相似,但AI論文的寫作質量較高。審稿人識別作者類型的準確率僅50%,且有經驗的審稿人在區分上表現較好。研究建議科學期刊應教育審稿人關於AI的角色,並制定相關政策。 相關文章 PubMed DOI

這項研究評估了婦科腫瘤學中醫生與AI聊天機器人(如ChatGPT和Bard)對常見臨床問題的回答質量。研究中,五位醫生和兩個AI平台回答了十個問題。結果顯示,醫生的回答在76.7%的情況下被評為最佳,明顯優於ChatGPT(10%)和Bard(13.3%)。醫生的準確率為86.7%,而AI的準確率則分別為60%和43%。這顯示醫生的回答質量和準確性高於AI,並提醒大家在尋求醫療建議時要謹慎使用AI。 相關文章 PubMed DOI