原始文章

這篇論文探討了使用開源的基於變壓器的文本嵌入模型,作為OpenAI文本嵌入服務的替代方案,特別是在基因表達數據分析上。雖然OpenAI的服務表現不錯,但也引發了數據隱私和成本的擔憂。我們從Hugging Face找到了十個小型且易於安裝的高效模型,實驗結果顯示,某些開源模型在四個基因分類任務中表現超過OpenAI,顯示出它們的潛力。此外,微調這些模型通常不會顯著提升性能。 PubMed DOI


站上相關主題文章列表

研究使用大型語言模型(LLMs)探討基於知識的基因優先順序和選擇,專注於與紅血球特徵相關的血液轉錄模組。結果顯示,OpenAI的GPT-4和Anthropic的Claude在LLMs中表現最佳。研究找出了模組M9.2的頂尖基因候選者,顯示LLMs在基因選擇上的潛力,有助於提升生物醫學知識的應用價值。 PubMed DOI

單細胞生物學領域近期有新進展,Geneformer和scGPT等複雜模型能從基因表現數據學習功能。GenePT是一簡單替代方案,利用ChatGPT嵌入基因,無需大量數據或訓練即可生成基因和細胞嵌入。GenePT在各項任務上表現優異,顯示利用語言模型嵌入可有效建立生物模型。 PubMed DOI

2023年,ChatGPT推出後掀起AI熱潮。OpenAI的大型語言模型(LLMs)不提供給安全診所現場使用。各方積極推動LLM民主化,允許本地實施符合隱私規範且適應特定數據。本文探討放射學中本地LLM的潛力,並討論開放與封閉AI領域的發展。初創公司如Meta、Google、X和Mistral AI透過開放模型推動LLM民主化。雖然性能可能不及GPT-4等封閉LLM,但開放LLM在改善診斷報告、與患者互動及從臨床數據庫中提取診斷信息方面展現潛力。 PubMed DOI

大型語言模型(LLMs),像是OpenAI的ChatGPT,雖然能生成類似人類的文本,但在網路使用時會有數據隱私的風險,因為用戶資料會傳送到外部伺服器。為了解決這個問題,我們探討在安全的本地網路中使用開源的小型LLMs,特別是在需要保護數據的監管機構中。我們發現某些模型在少量或零樣本學習中表現不錯,甚至達到傳統神經網路的效果,顯示出在安全環境中使用開源LLMs的潛力。 PubMed DOI

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

這篇論文探討基因數據在疾病診斷與治療中的重要性,特別是癌症研究,並指出將這些數據整合進臨床護理的挑戰,如電子健康紀錄的結構、保險成本及基因結果的可解釋性。研究也提到人工智慧(AI)和大型語言模型(LLMs)在解決這些問題上的潛力。儘管AI在醫學研究中的成功有限,但基於大量數據訓練的LLMs在基因分析上顯示出希望。研究評估了GPT模型在基因表達數據的預測能力,並與傳統機器學習方法進行比較,以探討其在預測癌症亞型的潛力。 PubMed DOI

這項研究評估了五種大型語言模型(LLMs)在識別基因集共同功能的有效性,並探討現有基因功能數據庫的限制。結果顯示,GPT-4在73%的案例中提出的功能與整理的基因集名稱相符,且其自信度與準確性相關。相比之下,隨機基因集的零自信率高達87%。其他模型如GPT-3.5和Gemini Pro則表現不一,經常在隨機基因集上出現錯誤自信。GPT-4在分析組學數據的基因簇時,識別出共同功能的案例達45%,顯示其在特異性和基因覆蓋率上優於傳統方法,顯示LLMs在組學研究中的潛力。 PubMed DOI

這項研究介紹了GenePT,一種新方法,利用ChatGPT的嵌入來表示基因,提供比傳統依賴大量基因表達數據的模型訓練更簡單的替代方案。研究人員使用GPT-3.5為單個基因生成嵌入,並透過加權平均創建單細胞嵌入,有效編碼細胞信息。此外,他們根據基因表達水平生成細胞的句子嵌入。GenePT在基因屬性和細胞類型分類等任務中表現優異,顯示出大型語言模型嵌入在捕捉單細胞生物知識上的潛力。 PubMed DOI

這篇論文探討開源大型語言模型(LLMs)在政治科學文本分類任務中的效能,包括立場、主題和相關性分類。研究旨在協助研究人員明智選擇LLMs進行文本分析,並設定性能基準。結果顯示,微調能顯著提升開源LLMs的表現,甚至可匹敵或超越零樣本的GPT-3.5和GPT-4。研究還指出,微調比少樣本訓練更有效。作者提供Python筆記本,幫助其他研究人員應用LLMs進行文本標註,相關材料可在指定DOI上獲得。 PubMed DOI

預訓練語言模型對自然語言處理(NLP)影響深遠,現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型(FMs)成本高且需大量資源,因此本研究提出L2G,透過現有的大型語言模型(LLMs)來應用於基因組任務。L2G運用「跨模態轉移」的概念,並結合神經架構搜索(NAS)及三階段訓練過程。結果顯示,L2G在多項基因組基準測試中表現優於微調的基因組FMs,特別在增強子活性預測方面也有卓越表現,顯示語言模型在基因組學的潛力。 PubMed DOI