LLM 相關三個月內文章 / 第 137 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究評估了新推出的AI模型Claude 3 Opus在診斷和規劃頭頸部鱗狀細胞癌(HNSCC)治療的效果,並與ChatGPT 4.0進行比較。研究於2024年3月進行,涵蓋50例HNSCC病例,並將AI模型的建議與傳統的多學科腫瘤委員會(MDT)建議進行對比。結果顯示,Claude 3 Opus在診斷準確性上優於ChatGPT 4.0,且提供的治療建議與MDT一致。雖然在臨床建議和解釋方面表現相當,但Claude 3未引用資訊來源。總體而言,Claude 3 Opus顯示出作為診斷工具的潛力,建議在臨床環境中使用。 相關文章 PubMed DOI

認知科學家一直在研究人類概念的表徵方式,尋找能有效計算相似性、特徵、類別等屬性的方法。這種表徵應能促進理論創建和知識發展。近來,基於向量的表徵成為熱門選擇,特別是在大型語言模型的進展下。這些向量能處理複雜屬性,如組合性和結構關係,顯示出它們在神經架構中可能有效編碼類似人類的概念理解。 相關文章 PubMed DOI

這項研究探討了不同人工智慧模型在精神醫學診斷的表現,包括GPT-3.5、GPT-4、Aya和Nemotron。由於病人主觀報告的影響,準確診斷常常困難。研究使用20個DSM-5的臨床案例,結果顯示GPT-3.5和GPT-4在準確性和推理上優於其他模型,尤其在診斷精神病和雙相情感障礙方面表現突出,但在某些情況下則不佳。研究建議,人工智慧有潛力改善精神科診斷,但其他模型需進一步改進,未來應擴展數據集以增強診斷能力。 相關文章 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)預測蛋白質相變(PPTs),對於理解與年齡相關的疾病如阿茲海默症非常重要。研究者微調了一個LLM,評估蛋白質序列變異對PPTs的影響,結果顯示該模型的表現超越傳統方法,並結合隨機森林模型提升可解釋性。此外,研究發現阿茲海默症相關蛋白質的聚集增加與基因表達下降有關,暗示可能存在自然防禦機制來對抗該疾病。 相關文章 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、Bard 和 LLaMa 在生成抗體藥物偶聯物(ADCs)相關眼部毒性資訊的表現。共提出22個問題,專家對模型的回答進行評分。結果顯示,ChatGPT的準確性得分為4.62,Bard為4.77,LLaMa為4.41,前兩者顯著高於LLaMa。在完整性方面,三者得分相近。整體而言,這些模型在眼科專業主題上表現良好,但ChatGPT和Bard的準確性較高。建議隨著研究進展,應重新評估這些模型的表現。 相關文章 PubMed DOI

這項研究評估了ChatGPT對家長詢問兒童眼科和斜視問題的回答準確性。分析了817個問題,結果顯示78.09%的回答完全正確,19.09%正確但不完整,只有2.81%部分不正確,且沒有完全錯誤的回答。平均可讀性分數為14.49,超過成人的標準,這引發了一些擔憂。儘管可讀性有待改善,研究仍顯示ChatGPT能提供準確可靠的資訊,顯示其在醫療領域的潛力。 相關文章 PubMed DOI

這篇論文反對將人工智慧(AI)系統,特別是大型語言模型(LLMs),列為科學論文的作者。作者認為,LLMs 無法對其產出負責,這是成為作者的必要條件。他們指出,AI 工具不具備有意義的寫作能力,也缺乏持久身份,並討論了 AI 作為作者可能對學術出版造成的負面影響。最後,作者質疑僅為了發表而使用 AI 生成更多研究的價值,並建議應該能夠識別過去 AI 使用的工具,以防止其成為作者。 相關文章 PubMed DOI

這項研究探討符號系統,特別是語言,如何透過個體發展和歷史演變而形成。提出的集體預測編碼(CPC)假說,強調身體互動與社會互動在內部表徵和意義分享中的關聯。研究基於預測編碼,並借鑒計算模型,如概率生成模型和語言遊戲。CPC假說與自由能原則相連,暗示符號的出現與最小化自由能的社會原則一致。文章回顧相關研究,並探討未來的挑戰及跨學科研究機會。 相關文章 PubMed DOI

PANDA-3D 是一款深度學習工具,專門用來從 AlphaFold 預測的蛋白質結構中推測基因本體 (GO) 術語。它結合了幾何向量感知器圖神經網絡和變壓器解碼器層,進行多標籤分類,表現優於傳統依賴實驗的結構方法,並在使用氨基酸序列的其他先進技術中也具競爭力。AlphaFold DB 擁有超過 2 億個預測的蛋白質結構,PANDA-3D 成為準確註解蛋白質功能的重要資源,並可透過網頁伺服器和資料庫輕鬆訪問。 相關文章 PubMed DOI

這項研究評估了GPT-4在診斷罕見疾病的表現,使用了5,267份以phenopackets格式整理的案例報告。研究旨在克服以往樣本量小和主觀評估的問題。結果顯示,GPT-4的正確診斷平均倒數排名(MRR)為0.24,表示在19.2%的案例中正確診斷排名第一,28.6%排名前三,32.5%排名前十。這是迄今對大型語言模型在罕見疾病診斷的最大分析,提供了更真實的能力評估。 相關文章 PubMed DOI