我們擅長商業(yè)策略與用戶體驗(yàn)的完美結(jié)合。
歡迎瀏覽我們的案例。
文心一言的發(fā)布已經(jīng)進(jìn)入倒計(jì)時(shí)。在這個特殊的時(shí)間節(jié)點(diǎn),InfoQ 接觸到了百度 AI 中臺的技術(shù)團(tuán)隊(duì),試圖了解將全面支持文心一言在產(chǎn)業(yè)快速落地的工程化能力具體是什么樣子。
國外,OpenAI 宣布正式推出面向商業(yè)用戶的 ChatGPT 和 Whisper 語音轉(zhuǎn)文字模型 API,開發(fā)人員可以通過 API 將 ChatGPT 和 Whisper 模型集成到自己的應(yīng)用程序和服務(wù)中。
國內(nèi),百度即將發(fā)布的文心一言已經(jīng)與 400 余家企業(yè)正式達(dá)成戰(zhàn)略合作。
大模型的出現(xiàn)讓沉寂了許久的資本市場再度熱鬧起來,投資人們近期不是在排會、就是在項(xiàng)目投決會上,相關(guān)概念股同樣漲幅可觀。從脈脈上放出的 AIGC 相關(guān)崗位來看,互聯(lián)網(wǎng)、電商、智能硬件等眾多領(lǐng)域的大廠全力開搶相關(guān)人才,知名獵頭 CGL 等公司掛出 10 萬月薪崗位開始搶人。
冷靜之下,本輪 AI 熱潮與此前幾輪呈現(xiàn)驚人的相似——熱點(diǎn)迸發(fā),資本涌入,創(chuàng)業(yè)公司層出不窮,最終由于缺乏規(guī)模化落地,或不了了之,或大幅虧損。曾經(jīng)被資本認(rèn)為至少有 1000 億美元估值的格靈深瞳實(shí)際不到 50 億,而“AI 四小龍”過去一年則飽受“長期虧損、造血能力不足”的質(zhì)疑。
歸根結(jié)底,AI 的規(guī)模化落地遠(yuǎn)不是某一項(xiàng)技術(shù)突破就能實(shí)現(xiàn)的,除算力、算法、數(shù)據(jù)外還需要大量工程性、過程性工作的加入。從數(shù)據(jù)采集、標(biāo)注到模型訓(xùn)練、上線,任何一個環(huán)節(jié)出現(xiàn)問題都會影響最終的落地效果。
當(dāng)新一輪的技術(shù)浪潮來襲,AI 工程化再次成為無法回避的問題。
那么為什么談?wù)摿诉@么多年,AI 工程化依舊無法尋找到最佳解決方案?MLOps 是最優(yōu)解嗎?如果是,這套方法論具體如何落地?可以給產(chǎn)業(yè)帶來哪些實(shí)際價(jià)值… 本文,InfoQ 采訪了百度 AI 中臺總監(jiān)忻舟,百度 AI 中臺產(chǎn)品架構(gòu)師靳偉以及百度智能云主任架構(gòu)師謝永康,試圖探究上述問題的答案。
為什么談?wù)摿四敲炊嗄辏珹I 工程化問題依舊無法解決?
雖然 AI 工程化問題談?wù)摿硕嗄辏恢睕]有很好解決。主要原因在于如下三點(diǎn):首先,行業(yè)內(nèi)部一直缺乏統(tǒng)一的規(guī)范,這就導(dǎo)致解決方案質(zhì)量良莠不齊,而 AI 開發(fā)流程長且復(fù)雜,從數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注、模型訓(xùn)練、到應(yīng)用,再到最后的數(shù)據(jù)回流和模型觀察,任何一個環(huán)節(jié)沒有規(guī)范都會出現(xiàn)問題。
其次是人才問題,過去,業(yè)內(nèi)人工智能相關(guān)的研發(fā)人才相對稀缺,且多集中在頭部互聯(lián)網(wǎng)大廠,傳統(tǒng)企業(yè)基本都還在做數(shù)字化和自動化轉(zhuǎn)型相關(guān)的事情,還沒走到智能化轉(zhuǎn)型的階段。最近幾年,相關(guān)高校的人工智能學(xué)院建設(shè)成果顯著,向社會輸送了大批優(yōu)秀人才,互聯(lián)網(wǎng)公司的人才也開始外溢到傳統(tǒng)企業(yè),這讓傳統(tǒng)企業(yè)具備了向智能化轉(zhuǎn)型的基礎(chǔ)條件。
最后是企業(yè)內(nèi)部多年積累下來的歷史問題非常復(fù)雜,比如企業(yè)的一個人工智能平臺所需要的數(shù)據(jù)需要從數(shù)十個系統(tǒng)獲得,而這些系統(tǒng)的對接工作需要花費(fèi)大量時(shí)間和精力,分屬同一領(lǐng)域的不同企業(yè)的基礎(chǔ)設(shè)施并不完全相同,簡單復(fù)制粘貼是無法達(dá)到效果的。
這其中最關(guān)鍵的就是行業(yè)標(biāo)準(zhǔn)的建立,一套完善的標(biāo)準(zhǔn)意味著在大部分領(lǐng)域通用的解決方案能力。過去一年,中國信息通信研究院為了更好地將互聯(lián)網(wǎng)大廠的 AI 能力賦能產(chǎn)業(yè),正式發(fā)布了《人工智能研發(fā)運(yùn)營一體化 (Model/MLOps) 能力成熟度模型第一部分:開發(fā)管理》標(biāo)準(zhǔn),百度智能云 AI 中臺解決方案參與了 MLOps 開發(fā)管理服務(wù)能力評測,成為國內(nèi)在開發(fā)管理能力上達(dá)到旗艦級的 MLOps 平臺(面向產(chǎn)品方的最高等級)。
圖片來自網(wǎng)絡(luò)/侵刪
圖注:MLOps 開發(fā)管理部分評測的指標(biāo)體系涉及 28 個能力子項(xiàng),考察點(diǎn)近 200 余項(xiàng),是一個非常全面與系統(tǒng)的測評
簡單來說,這套標(biāo)準(zhǔn)是首個匯集 AI 開發(fā)全流程的最佳實(shí)踐寶典,可以幫助企業(yè)實(shí)現(xiàn) AI 工程化落地,大幅提升 AI 研發(fā)和運(yùn)營的質(zhì)量和效率。那么,這樣一套“旗艦級”的 AI 中臺解決方案其具體架構(gòu)是如何設(shè)計(jì)的?效果如何?能為產(chǎn)業(yè)帶來哪些實(shí)際價(jià)值?
業(yè)內(nèi)缺的不是 AI 中臺,而是全周期端到端
MLOps(Machine Learning Operations)是一套面向機(jī)器學(xué)習(xí)項(xiàng)目和研發(fā)運(yùn)營管理體系,指在人工智能軟件項(xiàng)目的研發(fā)和運(yùn)營過程中統(tǒng)一和管理需求、開發(fā)、測試、集成、部署和運(yùn)營等環(huán)節(jié),實(shí)現(xiàn)模型持續(xù)訓(xùn)練、持續(xù)集成、持續(xù)交付、持續(xù)監(jiān)控的快速迭代和有效銜接。
這套方法論其實(shí)早在 2015 年就誕生了,號稱遵循此設(shè)計(jì)的“AI 中臺”解決方案也不在少數(shù),那為什么沒解決問題呢?
因?yàn)榇蟛糠?AI 中臺都只解決了“某一段”的問題,而百度智能云 AI 中臺是少有的端到端的覆蓋 AI 研發(fā)和運(yùn)營全生命周期的解決方案。
2020 年,百度智能云將原有服務(wù)按照 MLOps 的過程整合為四大板塊,分別是數(shù)據(jù)樣本中心,專門做數(shù)據(jù)處理;開發(fā)中心,提供專業(yè)的開發(fā)平臺;模型中心,將開發(fā)中心訓(xùn)練好的模型統(tǒng)一管理,方便后期評估;服務(wù)運(yùn)行平臺,將模型最終發(fā)布為一個在線服務(wù)或者端服務(wù),這四大平臺基本涵蓋了 MLOps 全生命周期。
除此之外,百度智能云在“安全可控“上也提供了眾多周邊企業(yè)級管控服務(wù),比如模型風(fēng)險(xiǎn)管理,可以記錄從模型立項(xiàng)、模型研發(fā)、數(shù)據(jù)收集,模型訓(xùn)練到模型上線和下線全流程的所有數(shù)據(jù)及評估過程,問題出現(xiàn)后可以迅速定位到責(zé)任人。另外針對結(jié)果,百度提供了模型的可解釋性,涉及訓(xùn)練可解釋和預(yù)測可解釋兩部分。在訓(xùn)練過程,企業(yè)可以得到模型的具體訓(xùn)練方式以及哪些參數(shù)在發(fā)揮重要作用等信息;在預(yù)測過程,企業(yè)可以倒推到底是哪些數(shù)據(jù)或者決策路徑內(nèi)的鏈條導(dǎo)致最終的結(jié)果是 Yes,這對注重安全的企業(yè)而言至關(guān)重要。
靳偉表示上述四大板塊加管控服務(wù)就是百度智能云的 AI 中臺解決方案。那么,這樣一套全周期端到端的解決方案到底有哪些優(yōu)勢呢?
從實(shí)施路徑來看,業(yè)內(nèi)一般有兩種實(shí)現(xiàn)方式:一是針對 AI 領(lǐng)域人才相對缺乏,自身 AI 能力尚未建設(shè)完成的企業(yè),百度智能云可提供全套的解決方案。而不是如過去一樣建一個 OCR、搞一個智能客服這樣的單點(diǎn)創(chuàng)新,是通過端到端把企業(yè)內(nèi)部的底層 AI 基礎(chǔ)設(shè)施建好,未來才可能在此基礎(chǔ)上實(shí)現(xiàn)更多創(chuàng)新。
二是具備一定研發(fā)實(shí)力的企業(yè),聚焦在個性化 AI 研發(fā)能力的構(gòu)建,大幅提升 AI 模型落地應(yīng)用推廣效率。在此情景下,基礎(chǔ)的方案可能完全起不了作用,只有具備端到端能力的解決方案才能助力研發(fā)人員快速搭建出一套適合企業(yè)發(fā)展的方案。
從最終效果來看,百度 AI 中臺從需求和代碼管理、AI 模型生產(chǎn)、底層計(jì)算資源管理、數(shù)據(jù)管理及質(zhì)檢全流程均完善的管理工具,能夠?yàn)槠髽I(yè)客戶提供較為快速和較高質(zhì)量的響應(yīng)。
具體到單點(diǎn)功能上,其提供的自動標(biāo)注能力相比于人工標(biāo)注,成本平均降低 70%。特定場景下,數(shù)值遠(yuǎn)超于此。在資源利用率層面,模型訓(xùn)練本身是非常耗費(fèi) GPU 資源的,這在大模型時(shí)代尤為明顯。整個過程涉及資源合理利用、資源調(diào)度、虛擬化以及提升 GPU 的利用率等,而 MLOps 對此有明確的規(guī)范,百度的 AI 中臺基于這樣的規(guī)范實(shí)現(xiàn),可以給到用戶更好地調(diào)度策略和虛擬化機(jī)制,確保資源利用率達(dá)到 80%,甚至 90%,這將為企業(yè)節(jié)省大量成本。
面向未來,百度的 AI 中臺將與大數(shù)據(jù)平臺實(shí)現(xiàn)深度聯(lián)動。忻舟表示大數(shù)據(jù)和 AI 天生就應(yīng)該在一起,MLOps 與 DataOps 的結(jié)合正在百度內(nèi)部發(fā)生。未來,用戶可以通過平臺產(chǎn)品的方式直接獲得這種能力,比如 AI 中臺、大數(shù)據(jù)中臺,也可以通過 SDK 的方式來獲取相應(yīng)能力,企業(yè)可以不用關(guān)心具體的實(shí)現(xiàn)方式,專注于與現(xiàn)有業(yè)務(wù)的具體結(jié)合。
當(dāng)然,在產(chǎn)業(yè)智能化升級的過程中,僅靠 AI 中臺顯然是不夠的,企業(yè)需要的是一個強(qiáng)悍的 AI 基礎(chǔ)設(shè)施,可以解決智能化轉(zhuǎn)型過程的一切問題。
強(qiáng)悍的不僅是 AI 大底座本身,而是燒錢也建不起的技術(shù)壁壘
百度 AI 中臺與百舸異構(gòu)計(jì)算平臺兩大部分共同構(gòu)成了百度的 AI 大底座,形成了國內(nèi)僅有的涵蓋“芯片 - 框架 - 模型 - 應(yīng)用”的 AI 生產(chǎn)全要素智能基礎(chǔ)設(shè)施。
其中,百度 AI 中臺整合了目前中國深度學(xué)習(xí)平臺市場綜合份額第一的“飛槳”和產(chǎn)業(yè)級知識增強(qiáng)大模型“文心大模型”,打通了百度的樣本中心、模型中心、AI 開發(fā)平臺、AI 服務(wù)運(yùn)行平臺,實(shí)現(xiàn)從數(shù)據(jù)存儲到模型訓(xùn)練、生產(chǎn)、部署、測試的全鏈路、批量化生產(chǎn);百舸異構(gòu)計(jì)算平臺整合了百度自研的 AI 芯片“昆侖芯”,可以提供高性價(jià)比的算力,承載海量數(shù)據(jù)的處理、超大模型的訓(xùn)練和推理。
百度是全球?yàn)閿?shù)不多、進(jìn)行全棧布局的人工智能公司,且各個層面都有關(guān)鍵自研技術(shù),可以真正實(shí)現(xiàn)端到端優(yōu)化,大幅提升效率。
以傳統(tǒng)能源行業(yè)的智能化升級為例,電力企業(yè)最擔(dān)心的兩大問題:一是如何實(shí)現(xiàn)不同區(qū)域的電力資源按需調(diào)度,最終實(shí)現(xiàn)各區(qū)域的供需匹配,這個過程就要求員工 7x24 小時(shí)監(jiān)控所有節(jié)點(diǎn)發(fā)回的電力信息;二是可以不受天氣溫度、地理位置的干擾對高壓線纜進(jìn)行巡檢且保證員工安全,很多高壓線纜處于深山密林中,巡檢人員很難進(jìn)去,并且巡檢人員需要爬上線纜做各種各樣的檢查,非常危險(xiǎn)。這對 AI 技術(shù)的應(yīng)用也帶來了實(shí)際挑戰(zhàn):一是電網(wǎng)企業(yè)硬件設(shè)備眾多,數(shù)據(jù)、接口復(fù)雜,難以形成統(tǒng)一的感知和管理平臺;二是模型開發(fā)難度高,電力設(shè)備分布在各種自然環(huán)境中,天氣溫度、地理位置等都會影響模型的最終效果,設(shè)備故障類型較多。
在國家電網(wǎng)的實(shí)際應(yīng)用中,百度通過 AI 大底座的能力幫助國網(wǎng)實(shí)現(xiàn)了人工智能“兩庫一平臺”的建設(shè),促進(jìn)了人工智能技術(shù)在輸電、變電、配電、調(diào)度、電網(wǎng)企業(yè)營銷、安全監(jiān)察等各業(yè)務(wù)領(lǐng)域的落實(shí)、落地。并幫助國網(wǎng)福建建設(shè)了 AI 中臺,在此基礎(chǔ)上,協(xié)同打造電力大模型,構(gòu)建了 AI 電力關(guān)鍵業(yè)務(wù)數(shù)據(jù)的全鏈條智能處理能力,實(shí)現(xiàn)需求、樣本、模型、應(yīng)用和迭代的全流程業(yè)務(wù)貫通,支撐國網(wǎng)福建電力更高效、規(guī)范地打造 AI 應(yīng)用。目前,這一方法已幫助他們在識別準(zhǔn)確率提升了 30%,識別效率提升了 5 倍。變電端效率提升了 40—60 倍,啟動送電時(shí)間縮短了 80%。未來,通過 AI 大底座的全棧優(yōu)勢將持續(xù)為國網(wǎng)實(shí)現(xiàn)端到端優(yōu)化模型效果,提供更高效能的服務(wù)。
但是,真正強(qiáng)悍的不僅僅是 AI 大底座本身,還有這背后的技術(shù)壁壘。
與云計(jì)算領(lǐng)域早期就擁有眾多開源和標(biāo)準(zhǔn)化方案不同,構(gòu)建 AI 能力所需要的數(shù)據(jù)、算法、算力以及工程化能力,每一環(huán)都具有極高的門檻,這也是 ChatGPT 帶給我們巨大沖擊之后,國內(nèi)用戶第一時(shí)間把注意力投到百度身上的原因,只有百度過去這么多年堅(jiān)定不移地在 AI 研發(fā)上投入重金,并最早在產(chǎn)業(yè)里面實(shí)現(xiàn)了規(guī)模化落地。
當(dāng)其他企業(yè)還受限于芯片研發(fā)技術(shù)和找不到場景打磨時(shí),百度“昆侖芯”已上線數(shù)萬片,廣泛用在百度搜索和無人駕駛汽車、愛奇藝、小度等業(yè)務(wù)場景。
當(dāng)其他企業(yè)還在糾結(jié)開源框架選型時(shí),百度飛槳已經(jīng)成長為一個自主可控的全棧平臺,凝聚了數(shù)百萬開發(fā)者,在產(chǎn)業(yè)里摸爬滾打四年多服務(wù)了數(shù)十萬企事業(yè)單位。
當(dāng)其他企業(yè)臨時(shí)抱佛腳研究大模型時(shí),百度文心大模型已經(jīng)形成“模型層 + 工具與平臺層 + 產(chǎn)品與社區(qū)層”的整體布局,成為業(yè)界規(guī)模最大的產(chǎn)業(yè)大模型體系。
作為一家既懂芯片,又懂算法,還有數(shù)據(jù)的企業(yè),百度智能云可以根據(jù)用戶實(shí)際場景的需要提供端到端的解決方案,在提供更優(yōu)的客戶體驗(yàn)的同時(shí)大幅降低成本,不是每一家搞 AI 的公司都恰好能擁有強(qiáng)大的云計(jì)算能力,也不是每一家搞云計(jì)算的企業(yè)都能與如此強(qiáng)悍的 AI 大底座形成有效協(xié)同。
一旦這套體系建立完成,云廠商將會在 AI 時(shí)代擁有極高壁壘。
碎片化生態(tài)的變革:從百度“AI 大底座”開始
過去多年,場景的碎片化帶來了 AI 產(chǎn)品的碎片化,但也恰恰說明業(yè)內(nèi)并沒有一個通用、普適的人工智能產(chǎn)品出現(xiàn),這里的原因很復(fù)雜,包括數(shù)據(jù)、算法、算力、生態(tài)建設(shè)等諸多方面。
百度 AI 大底座的出現(xiàn)讓我們對打破這種“碎片化生態(tài)”重新燃起了希望。用戶只需要提出訴求,平臺就可以自動輸出需要的結(jié)果,這就像一條流水線一樣易用、順暢。只有這樣的解決方案才可能真正實(shí)現(xiàn)“AI 普惠”的未來愿景。
“AI 普惠在百度智能云有兩層含義,第一層含義是讓企業(yè)以更低的門檻獲得 AI 能力;第二個含義是以更高性價(jià)比的方式獲得 AI 能力,百度在做很多通用的 AI 平臺型產(chǎn)品和針對特定場景的解決方案,以期通過最具性價(jià)比的方式解決企業(yè)問題,最終實(shí)現(xiàn) AI 普惠。” 百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖也在此前談到:“需要云計(jì)算廠商標(biāo)準(zhǔn)化地輸出智能化的底層能力,把芯片、大模型、深度學(xué)習(xí)框架等高門檻的技術(shù),變成像水電能一樣供客戶按需取用。”
(碼上科技)
文心一言發(fā)布已進(jìn)入倒計(jì)時(shí) InfoQ接觸到百度AI中臺的技術(shù)團(tuán)隊(duì) 09:32:02
對Twitter的調(diào)查中 美國FTC計(jì)劃要求馬斯克出席聽證 10:50:00
文件顯示 微軟在西雅圖地區(qū)裁掉689名員工 10:44:50
受全球智能手機(jī)市場低迷影響 高通宣布美國圣地亞哥裁減79名員工 10:39:44
Apple Pay服務(wù)問世八年后 蘋果宣布該服務(wù)將在韓國推出 10:31:38
TikTok為創(chuàng)作者增加賺錢方式 可為自己的獨(dú)家內(nèi)容設(shè)置付費(fèi)觀看 10:27:58