第157章 迎敵陷馬
為什么要這么做?因為文本的數據覆蓋面更廣,全量,而且是高知識量的。以此為基礎,就可以獲得更快的學習收斂速度。這里可以類比人,人學習的過程最重要的三大來源:說話、眼睛看世界、耳朵聽東西,這三個信息可能最開始要引導的教育過程,是引導他講東西,這也就是分階段對齊的核心要義。從圖來看,LLM Backbone以語言對齊為核心,分階段去做多模態大模型的信息壓縮,找到其中的信息系規律。
第二大類型,端到端對齊結構。就是對不同模態的數據同時學習,同時輸入圖像、文本各種各樣的信息,直接把所有信息交叉并發,把所有的信息進行壓縮,抽取里面的規律,最終達到理解這個世界,去驅動跟這個世界進行交互。
三、解讀大模型技術發展三階段,場景反哺技術階段仍面臨挑戰
大模型能夠幫我們做什么?我們很清楚大模型技術只是一個工具,從技術的角度去看,它幫我們把很多信息壓縮,更高效地找出其中的規律。大模型要體現出價值,就要落實到各行各業、各種業務的閉環應用里面去。
借鑒AI技術發展的路徑,我們認為大模型技術發展定義也有三個階段。這三個階段實際上也是技術跟數據或者算法的關系。
一開始,我們設計算法時通常會使用少量數據進行驗證,這被稱為技術找場景。在第二階段,場景反哺技術,我們則采用更多數據來提升算法和技術的能力。第三階段,場景找技術,即所有應用和需求都能通過同一個算法、模型來解決,這標志著我們邁入AGI時代的大道。
那么,技術找場景現在的進展如何?我們已經走完了技術找場景在大模型技術發展應用的這段路。許多應用,例如智能問答、文生成圖以及像ChatGPT這樣的生成式大模型單點應用,已經驗證了大模型技術的應用和算法成熟度。
目前,我們正處于第二階段,即場景反哺技術的階段。我們可以看到,多模態大模型的落地還有很長一段路要走,其困難之處在于行業場景的復雜性。盡管我們希望在各行各業中廣泛應用大模型,但行業場景的知識深度對大模型的能力提出了嚴峻的考驗,仍存在著參差不齊、遠未滿足需求的情況。
因此,我們需要積極推動多模態大模型技術的落地,并應對挑戰尋找解決方案。
四、如何打破大模型應用的“三角約束”?云天勵飛提出“算法芯片化”
我們要考慮主要的變量是什么?從智慧城市中的城市治理、智慧交通,我們歸納出,要在多模態大模型進行落地變現,應注意三個變量的“三角約束”。
如今,對話系統備受關注,其精度已經接近人類,跟人沒有差異,但在對垂域的深度支持和行業的價值,大模型沒法去做。在真實生產環境中,很多任務是很復雜的,由于對垂域專業知識的不足,以及數據優化結構的增加,大模型面臨著成本和效率方面的挑戰。
因此,我們需要在精度、成本和效率之間尋找平衡點,以推動多模態大模型技術在對話系統中的落地應用。我們相信,我們正在積極解決這一問題,并與AI領域的同仁一道不斷推進技術進步。
云天勵飛是如何突破“三角約束”的?我來分享一下我們的解決方案。
自2014年云天勵飛建立之初,我們就定義了“算法芯片化”的技術發展路徑。算法芯片化不僅僅是簡單地將算法應用于芯片,還需要高度專業的人才,需要專家人才對算法有深刻理解,對不同場景和行業數據有專業認知,并能夠通過協同設計算法與場景,最終體現在芯片側、算子側,包括推進可伸縮的指令集、優化計算架構以及工具鏈的優化。
這樣的技術支持使得我們能夠應用包括Transformer、各種深度學習算法框架等多種算法。最重要的一點,它的成本、效率是制約多模態大模型落地的關鍵。
過去打造的云天天書多模態大模型包含了幾個維度,包括語言、CV、文本問答、目標檢測分割等。這些大模型的落地采取了分層解耦的策略,通過設計算法芯片化平臺,我們構建了一個通用大模型。這個通用大模型具備基礎能力,它在行業知識和場景經驗方面可能只達到60到70分,但在通用性方面可以達到80分、90分甚至滿分。
再往上走就是行業大模型、場景大模型,要在具體的場景業務里面拿到90分,需要低成本的算子層面優化,并通過與邊緣側數據的高效迭代訓練來滿足客戶需求。
過去十年,云天天書算法研究經歷了長時間的迭代發展。從2017年之前研究以ResNet卷積神經網絡的深度學習,到Transformer結構起來之后,我們第一批啟動了Transformer結構適配整個算法芯片化的平臺。去年公司上市后,我們加大了對大模型技術的研發投入,并持續跟進海內外的先進技術。我們成功地研發了從百億級到千億級的語言多模態大模型。
上個月,我們發布了云天天書3.5V的大模型。在圖文理解、生成以及問答等方面,這些模型表現非常可觀。在語言大模型方面,我們去年已經多次獲得了權威榜單的第一名。
五、云天勵飛是怎么取得可觀成績的?背后有4項關鍵技術
我們如何實現這些可觀的成績?盡管我們面臨了諸多挑戰,但我們總結歸納后認為有四個關鍵點值得分享:
第一,解決成本的問題。精度可以通過數據堆積解決,在真正落地的時候,推理的成本是繞不過去的,我們的核心要義是解決高效的推理引擎問題。
為此,我們自主研發了Space推理引擎,它與算子層高效融合,實現了無損的推理,并將推理速度提升了50%以上。具體來說,像生成式大模型,通常是進行單字符的向前預測,但我們想辦法一次性預測多個字符,同時保持無損、精度不變。在這種情況下,我們通過對算法結構進行改進,實現了一次性預測多個詞條,從而提升了推理效率。
第二,降低核心成本。我們致力于提高效率和減少GPU存儲需求,通過研究分布式切塊,包括自適應的稀疏緩存解碼等技術,我們成功將GPU需求降低了50%。
第三,優化訓練技術。優化訓練是大模型落地的根基,所有的應用都在這個根基上長起來。我們研發了一套可伸縮的大模型訓練技術,簡單來說,訓練一個大模型,這個大模型要考慮如果擴展它的參數或者說擴展它的規模、優化它的結構,能不能復用原有的大模型?
答案是肯定的,這種方法也節省了訓練成本。從深度和廣度的角度來看,通過復用已訓練的參數,達到深度擴展和寬度擴展,使訓練效率翻倍,同時降低了達50%的訓練成本。
第四,神經網絡處理器和推理芯片是我們近十年來的重點。如今已經歷了四代迭代,從第一代NNP100到目前的NNP400T,我們已經完全靈活適配多種深度學習架構,特別是在Transformer架構下,我們進行了指令集優化、算子的協同設計以及高效的聯合設計,支撐了Transformer結構的高效推理。此外,我們還是最早一批使用Chiplet結構適配大模型的公司之一。
利用這四項核心技術,我們構建了支持邊緣大模型的算法芯片化系統。我們的底層技術支持了神經網絡處理器和自主研發的推理芯片,促進了國產化進程,避免了對供應鏈的依賴,并在此基礎上實現了多模態大模型的運行。從行業應用的角度來看,我們有基于行業到邊緣的場景大模型。更重要的是,我們支持用戶進行無感知的在線微調,同時保護用戶的數據隱私,而且成本極低。
六、實現每秒30字高效推理,多模態大模型已落地G端
云天天書的多模態大模型在文本理解和生成方面表現卓越,每秒可實現30字的高效推理速度,并能處理超過45萬字的上下文。通過指定要求,快速生成符合特定格式的通知、決議等文件,從而有效推動辦公自動化。大家可以看到整個生成過程內容極其簡潔,速度極其快。
此外,我們也支持帶參考內容的文章修改和潤色,可以復制一部分已有的參考內容,高效地進行潤色、修改,變成大家所需要的東西。目前這一塊的內容已成功地在多個地級市、省廳局委辦落地。采用我們的多模態大模型進行辦公賦能,對于項目報告的內容生成也是非常靈活。
最后,在文本內容的理解和生成方面,很重要的一點是生成的質量。我們自帶校閱功能,生成完之后可以多次優化里面的內容,達到自迭代、自進化的效果。云天天書多模態大模型支撐視頻數據的理解和生成,很多數據訓練過程結束之后,有一些數據是需要優化、編輯的,尤其在消費端的場景,比如對圖片編輯,對3D數據合成。
我們可以通過多模態大模型進行數據的合成,達到我們想要的3D數據。對于圖片的數據理解,比如通過指令去渲染,通過指令去編輯整個圖片,讓大模型去理解,根據指令操作圖片,甚至畫出不同的風格。多模態大模型的Agent能力,以開源目標檢測為例,這種技術為城市發展提供了支持,正如我們之前提到的,我們發布了一個AI模盒,旨在促進AI技術在城市領域的應用,其中就包括基于多模態大模型的支持。
我們非常榮幸,能夠身處在這個AI蓬勃發展,引領各行各業不斷變革的時代。如今,AI大模型技術在各行各業遍地開花,我們希望攜手各行各業的專家及朋友,共同引領多模態技術的落地,并邁向AGI大方向。
以上是余曉填演講內容的完整整理。
搜索
云天勵飛
國內大模型最新排名
孫正義評價云天勵飛
云天勵飛國內最強ai
驚艷到極致的ai圖片
國資入股云天勵飛
(https://www.dzxsw.cc/book/56657679/36365907.html)
1秒記住大眾小說網:www.dzxsw.cc。手機版閱讀網址:m.dzxsw.cc