AI大模型火熱背後,數據智能“硬實力”成競爭關鍵

隨着AI大模型浪潮席捲全球,政府和企業都在立足長遠,搶先佈局生成式人工智能(AIGC)與通用人工智能(AGI),推進人工智能產業發展。4月11日,國家互聯網信息辦公室發佈《生成式人工智能服務管理辦法(徵求意見稿)》,以促進生成式人工智能技術健康發展和規範應用;國內諸多科技企業陸續推出AI大模型產品,並積極推進AI大模型的行業落地應用。

有觀點認爲,當前AI大模型處於百花齊放的狀態,未來企業要想真正跑贏對手,需要具備數據、軟硬一體算力、場景等多重能力,數據智能技術將是發展重點。其中,中金公司研究報告認爲,在數據智能產業鏈上,基礎設施建設和模型生產應用是AI大模型發展的必由之路,數據的存儲與計算技術夯實AI軟實力,在AI不同階段均提供關鍵支撐;MLOps 助力 AI 模型生產應用和規模化落地,賦能AI模型生產全生命週期的各個流程。

報告還指出,MLOps是Al 掘金時代的“鏟子”。根據 Marketsandmarkets 數據,全球MLOps 市場處於快速發展階段,預計將從2022年的11億美元增長到2027年的59億美元;同時報告列出了數據智能領域值得重點關注的廠商,柏睿數據因擁有MLOps平臺級應用產品儲備而名列其中。

對此,柏睿數據董事長、首席科學家劉睿民先生在接受採訪時表示:“未來五年,將會是AI大模型風起雲湧的五年,AI大模型將帶動新的產業發展和行業應用,在垂直場景的落地和大規模推廣將進入跑馬圈地階段,呈現百舸爭流的景象,加快構建數據智能底座是當務之急。”

據悉,在AI大模型熱火朝天之前,柏睿數據已經在數據智能領域深耕多年。“柏睿數據以‘數據+智能’技術爲核心,長期致力於大數據技術在人工智能端的智慧落地,依託獨立自主研發的新一代高性能、標準化、全智能的數據智能產品體系,爲AI大模型發展提供從數據採集、存儲、計算分析到模型訓練、部署、應用的全生命週期解決方案,助力用戶高效、安全、輕鬆地構建和部署AI大模型,助力國產AI大模型全面落地生花。”劉睿民說。

打造數據智能分析引擎,夯實AI大模型核心基座

AI大模型包含“預訓練”和“大模型”兩層含義,大數據是其“隱式知識庫”。數據是AI大模型輸入的源頭和輸出的結果,貫穿人工智能的整個生命週期,而算力則是訓練模型的關鍵基礎設施之一,爲其快速發展提供堅實支撐。

據劉睿民介紹,在算力引擎方面,柏睿數據的全內存分佈式數據庫RapidsDB是實時數據分析和海量數據高效管理的平臺,基於全內存分佈式架構的智能算力分析引擎,支持大規模並行計算,具有高性能、高併發、高擴展性等特點,能夠實現PB級規模數據存儲與實時在線分析,3000億條數據查詢秒級響應。對於需要基於大規模數據訓練任務的AI大模型而言,RapidsDB能夠爲其提供實時的海量數據計算處理能力,降低模型訓練時間和成本。此外,RapidsDB還提供簡便易用的資源管理和調度工具,助力用戶合理分配計算資源,保障訓練任務的穩定運行。

柏睿數據RapidsDB在庫內人工智能方面積極創新,採用已獲得國際專利的動態查詢優化技術和代碼智能即時編譯等技術,實現數據庫內機器學習訓練、推理,避免了數據遷移,極大提高算法迭代效率;同時支持查詢性能優化及動態查詢優化,爲AI大模型提供更優分析性能。

同時,基於智能算力分析引擎RapidsDB,柏睿數據推出高性能、一站式、智能集成的湖倉一體化產品Rapids Lakehouse,其數據集成能力能夠高效、可靠地連接20+多源異構、不同的服務、不同的應用程序,流批一體,簡化通信和自動化數據驅動,使數據集成更輕鬆、更安全,並對接上層多樣化的計算生態,集成AI算法,滿足AI大模型多模態的數據輸入、計算,以及滿足具有行業特徵的機器學習訓練需求,以支持行業模型的訓練。

從數據集成到模型落地,“一站式”加速 AI大模型生產應用

AI 模型開發完成後需要在實際生產環境中落地部署,才能最終實現價值,完成生命週期閉環。Gartner 調查發現,只有 53%的項目能夠從 AI 原型轉化爲生產,AI模型生產工程化中存在跨團隊協作難度大、過程和資產管理欠缺使得複用度低、重複造輪子等問題,導致生產轉化率低、生產和交付週期長。 MLOps 能夠通過統一機器學習的研發和運營過程,助力AI模型開發和使用提質增效,降低模型集成管理成本,控制模型生產環境風險,推進AI 模型在實際業務中的落地。

對此,柏睿人工智能開發平臺Rapids AI以數據爲中心,將數據準備與建模工作串聯起來,通過特徵庫來管理和監控模型特徵,提升建模數據質量;構建端到端的機器學習建模平臺,支持AI大模型應用從數據獲取、轉換到訓練以及部署、應用的全流程;同時擁有覆蓋數據集和預訓練模型的豐富生態。

柏睿數據機器學習建模平臺AIworkflow是一站式、低門檻、拖拽式的端到端平臺,覆蓋從數據採集、清洗、存儲、分析到模型訓練、部署、應用的全流程,極大降低建模使用門檻,幫助用戶高效、簡易、自動化、低運維地構建、訓練和部署模型。

同時,柏睿數據構建了囊括海量數據集和預訓練模型的生態系統,助力用戶快速啓動AI大模型的訓練。通過利用豐富的數據集,用戶可以避免從零開始收集和整理數據的繁瑣工作;通過多種預訓練模型,用戶可以在此基礎上進行簡單的二次開發和微調,大幅縮短AI大模型研發週期,提高研發效率。

目前,柏睿數據Rapids AI已在海關、電力等行業得到落地應用。柏睿數據助力海關部門通過機器學習建模平臺AIworkflow和分佈式並行AI算法框架Rapids ParallelAI,將“捕獲的查驗工作單+對應報關單等”作爲訓練數據集合進行機器學習,構建報關單風險預測模型,大幅提高報關單風險預測的精準度和查獲率,降低人工成本。

在電力行業,柏睿數據助力客戶完成失準更換系統的改造升級,基於Rapids ParallelAI實現數據庫內機器學習模型訓練和預測,大大降低計算所需時長,高效、智能、安全地滿足電能表失準更換系統日評價的要求。

站在AI大模型加速發展的風口上,劉睿民表示:“未來,柏睿數據將堅持‘數據+智能’的技術核心與方法論,不斷豐富數據集和預訓練模型生態,打造針對AI大模型的完整生態,加速AI大模型從研發到應用的生產週期,簡單、高效支撐各類行業應用;同時結合客戶行業和業務場景需求,構建深度適配場景的AI模型,賦能業務增長和業態創新。”



Scroll to Top