LLM 相關三個月內文章 / 第 145 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

將大型語言模型(LLMs)整合進科學工作流程中,既有機會也有挑戰。四組科學家提供不同觀點:Schulz等人認為LLMs能提升研究生產力;Bender等人警告過度炒作,主張專注於可解釋的專用工具;Marelli等人強調透明性與負責任使用,呼籲標示LLMs貢獻;Botvinick和Gershman則認為人類應對科學探究負最終責任。這場對話旨在確保LLMs的使用能提升科學實踐,同時維持倫理與問責。 相關文章 PubMed DOI

這項研究探討了GPT-4及其變體在分析智利政治新聞中的應用,特別是從1,009篇文章中提取政治網絡。研究強調整合GPT-4的多種能力,如實體識別和情感分析,以分析政治關係。透過檢視「立法協議」,研究發現GPT-4識別的情感與政治家投票相似度有關。分析顯示,負面情感與較低的立法協議相關,且情感分析能顯著提升預測能力。整體而言,研究證實了GPT-4在政治網絡分析中的有效性。 相關文章 PubMed DOI

這項研究探討六種多模態大型語言模型(MLLMs)在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像,提出1084個臨床問題來評估模型表現,並由兩位醫師獨立評估。結果顯示,Claude 3.5 Sonnet的準確率最高,達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯,最佳商業模型的表現比其他模型高出19個百分點。研究指出,雖然MLLMs在手術決策支持上有潛力,但仍需針對特定需求進行開發,並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 相關文章 PubMed DOI

這項研究介紹了CARDBiomedBench,一個新基準,專門評估大型語言模型(LLMs)在生物醫學研究,特別是神經退行性疾病(NDDs)方面的表現。基準包含超過68,000個專家標註的問答對,並利用可靠來源進行數據增強。七個LLMs的評估結果顯示,最先進的模型在回應質量和安全性上仍有顯著不足,例如Claude-3.5-Sonnet的回應質量僅25%。這些結果顯示LLMs在處理複雜生物醫學信息時的挑戰,CARDBiomedBench希望提升AI在科學研究中的可靠性。 相關文章 PubMed DOI

這篇論文探討生成式人工智慧(GenAI)對研究生醫學教育(GME)的影響,指出其帶來的機會與風險。機會包括減輕電子健康紀錄的負擔、增強臨床模擬、個性化教育、支持研究與分析,以及改善臨床決策。不過,論文也提到風險,如AI輸出不準確、過度依賴AI資訊、學術誠信問題、潛在偏見及隱私風險。隨著GenAI技術的進步,理解其優缺點將變得相當重要。 相關文章 PubMed DOI

這項研究評估了GPT-3.5和GPT-4在小兒放射治療患者及其家長教育上的有效性。研究發現,GPT-4和放射腫瘤科醫生的回答質量最高,但GPT-4的回答有時過於冗長。微調過的GPT-3.5表現優於基本版本,但常常提供過於簡化的答案。整體來看,GPT-4可作為小兒放射腫瘤學患者及家庭的有用教育資源,雖然使用GPT-3.5時需謹慎,因為它可能產生不足的回答。 相關文章 PubMed DOI

透過結構化數據來識別免疫抑制患者相當困難,但像GPT-4o這樣的大型語言模型在從非結構化的臨床文本中提取結構化概念方面表現優異。我們的研究顯示,GPT-4o在分析住院紀錄時,能有效識別免疫抑制狀況和藥物使用,超越傳統方法。此外,這種技術也能成功應用於外部數據集。雖然GPT-4o mini和Llama 3.1等成本較低的模型也有不錯的表現,但仍無法與GPT-4o相比。 相關文章 PubMed DOI

這篇論文探討如何利用AI輔助的數據分析,特別是大型語言模型(如ChatGPT),來提升對健康風險評估中暴露-反應關係的理解。研究使用先進的統計方法,結合隨機生存森林和因果生存森林的ICE圖,分析NHANES III調查中不吸煙男性的血鉛水平與死亡風險的數據。結果顯示AI能揭示傳統模型忽略的個體風險變異性,強調非參數方法在評估生存時間異質性因果效應的優勢,並建議AI在健康風險評估和公共政策中的應用。 相關文章 PubMed DOI

本研究評估 ChatGPT 在回答關於關節鏡半月板修復的常見問題的有效性,並與 Google 搜尋結果進行比較。結果顯示,關於恢復時間和技術細節的問題最為常見,ChatGPT 在這些問題的回答中顯示出較高的比例。ChatGPT 的回答主要來自學術網站,而 Google 則有混合來源。結論是,ChatGPT 提供的資訊更符合學術標準,若在醫療專業人員指導下使用,可能成為患者教育的有用工具。 相關文章 PubMed DOI

結直腸癌是美國第三常見的癌症,結腸鏡檢查是主要篩檢方法,但約25%的病例因準備不當影響檢查效果。人工智慧(AI)在醫學上越來越受重視,特別是在腸胃科。研究評估了ChatGPT生成的腸道準備提示,調查208位腸胃科醫生的看法。結果顯示,91%的醫生認為提示易懂,95%認為科學準確,66%願意與病人分享。這顯示AI在臨床溝通和效率上有潛力。 相關文章 PubMed DOI