新華網北京2月13日電 題:戴文淵:“百模大戰(zhàn)”不是太多,而是遠遠不夠
記者 陳聽雨
每位即將分娩的孕產婦都可能面臨一項重要抉擇,順產還是剖腹產?在醫(yī)學高度發(fā)達的今天,這個決定往往會在孕期的最后才做出,且很大程度上依賴醫(yī)生的豐富經驗。
然而,在長春市婦產醫(yī)院,帶著對生命的敬畏,醫(yī)生通過AI技術更精確地預測新生兒體重,為分娩方式提供更科學的決策支持。
醫(yī)生將收過往集到的所有孕婦體檢指標數(shù)據輸入電腦中,最終構建出“新生兒體重預測模型”。這一模型能夠提高胎兒體重估值的準確度,在這個過程中,一切由AI自動完成,這真的可靠嗎?
結果出乎醫(yī)生的意料。
原本依靠經驗預估的新生兒體重誤差,最高可達1斤左右(新生兒體重平均6-7斤);而應用“新生兒體重預測模型”后,所有案例的誤差幾乎被控制在了200克以內,比臨床醫(yī)學已經達到的精確度更高。
“新生兒體重預測模型”由長春市婦產醫(yī)院的醫(yī)生基于人工智能企業(yè)第四范式的AutoML技術及產品構建。在第四范式創(chuàng)始人、CEO戴文淵看來,人工智能時代,企業(yè)需要新技術的賦能,從而需要人工智能技術公司,這是時代賦予第四范式的機遇,“毫無疑問,我們抓住了這個機遇。”戴文淵說。
穿過第四范式頗具科幻感的環(huán)形展廳,仿佛穿越了人工智能發(fā)展的數(shù)次潮起與變革,AI大模型、生成式AI技術在2023年引爆全球,2024年國內市場迅速掀起“百模大戰(zhàn)”,2025年“百模大戰(zhàn)”開啟下半場,對此,戴文淵在接受新華網科技頻道獨家專訪時說,“AI大模型是需要數(shù)據灌溉的,是整個時代,是國家的廣闊市場給我們創(chuàng)造了機遇?!?/p>
圖為在第四范式創(chuàng)始人、CEO戴文淵接受新華網專訪
從算力競爭到高質量數(shù)據競爭
除醫(yī)學領域,AI技術還在更多其他領域有著廣泛的落地應用。戴文淵舉例說,比如利用AI幫助商業(yè)銀行實現(xiàn)反欺詐。在引入AI之前,大部分銀行由專家撰寫反欺詐的業(yè)務規(guī)則,在過去幾十年的時間內,這些業(yè)務規(guī)則大致累積了上千條,這意味著,當一筆交易發(fā)生時,銀行會通過上千條規(guī)則來判斷這筆交易是否存在欺詐。
“AI技術在賦能銀行時,我們將過去十幾年的數(shù)據全部交給AI去分析,AI在其中發(fā)現(xiàn)了大概20億條規(guī)律,從1000到20億,對于整個行業(yè)是一個巨大的進步?!贝魑臏Y說,每一年,都有成百上千個不同但類似的案例在各行各業(yè)發(fā)生,把業(yè)務的規(guī)模做得越來越大,AI的參數(shù)量做得越來越大,模型做得越來越準,讓業(yè)務效果變得越來越好。
在戴文淵看來,人工智能產業(yè)的主基調一直是快速向前發(fā)展,“對于中國AI行業(yè)來說,到了越來越好的階段,進入越來越適合的發(fā)展節(jié)奏?!?/p>
對此他詳細解釋,前幾年,因為有效數(shù)據量尚未被充分開發(fā),所以只要把算力往上加,模型的效果就能繼續(xù)提升。但近年來,很多AI大模型都遇到了瓶頸,加算力效果并不提升。這是因為,生成式AI非常需要純凈的數(shù)據,要讓模型提升,就需要輸入越來越多且越來越好的數(shù)據。如果新輸入的一批數(shù)據比原先的數(shù)據質量差,很可能數(shù)據越多,模型的質量反而變差。
“中國AI的優(yōu)勢在哪?在產業(yè),有AI真正可以落地的需求。雖然我們的算力資源可能不具有絕對優(yōu)勢,但現(xiàn)階段,算力已不再是最核心的瓶頸,AI發(fā)展的瓶頸已從算力瓶頸轉變?yōu)楦哔|量數(shù)據的瓶頸,進入到高質量數(shù)據的競爭后,就會進入中國AI產業(yè)喜歡的節(jié)奏?!贝魑臏Y說。
他認為,之所以中國AI產業(yè)能大有作為,是因為中國市場的行業(yè)門類齊全,各行業(yè)AI落地的需求巨大?!爸灰盐覀兊乃懔Τ浞峙芷饋恚诿總€細分賽道,我們的目標都是提升有效參數(shù)量,有效參數(shù)越多,模型越準,業(yè)務就會越好,這樣就形成了良性閉環(huán),在每個賽道我們都要設計出這樣的良性閉環(huán)。”
“100個大模型,遠遠不夠”
截至2024年7月,我國已完成備案并上線的生成式AI大模型數(shù)量接近200個。2024年1至11月,大模型相關中標項目的盤點結果顯示,國內大模型中標項目共728個,中標總金額為17.1億元,分別是2023年全年數(shù)據的3.6倍、2.6倍。“百模大戰(zhàn)”打響,大模型賽道的競爭進入卷生態(tài)、拼獲客的階段。
“我認為‘百模大戰(zhàn)’不是壞事,是好事。在很多國家不會出現(xiàn)‘百模大戰(zhàn)’,因為根本就不可能拉出100個AI團隊。在中國能‘百模大戰(zhàn)’甚至‘千模大戰(zhàn)’,說明中國有人才,雖然現(xiàn)在中國的人口紅利開始消退,但受過高等教育的人口紅利正在崛起?!贝魑臏Y說。
如今,千行百業(yè)都在基于自身核心業(yè)務對AI的需求向更具體的應用層轉變,這些轉變的背后,蘊藏著企業(yè)對有效的AI產品賦能自身核心價值的真實需求。
“我認為各行業(yè)的人士,首先應該思考的是行業(yè)需要什么,企業(yè)自身的核心競爭力是什么?而不是先問應該買多少塊卡,模型參數(shù)量做到多少。”戴文淵以零售業(yè)舉例稱,比如零售企業(yè)的目標是提升供應鏈效率,那么確定目標定后,要看供應鏈效率提升需要什么樣的AI模型,建立這樣AI模型,需要什么樣的數(shù)據,這些數(shù)據需要什么樣的算法,算法需要跑在多大的算力上,這樣逐層梳理清楚, AI也就在這個產業(yè)落地,并且創(chuàng)造價值了?!?/p>
從AI賦能千行百業(yè)智能化轉型的角度來看,戴文淵信心十足,“我們的產業(yè)門類是齊全的,規(guī)模是巨大的,這兩點分別對應著有需求和有數(shù)據,百模大‘戰(zhàn)’根本就不成立,如果只有100個大模型,對中國來說其實是太少了,遠遠不夠?!?/p>
“不期待超級英雄”
戴文淵曾打過比方說,“可以把當前的人工智能技術視為一名實習生,初期工作成果可能并不完美,但他們確實能夠分擔部分工作,AI的學習到達一定階段后,或許就能勝任更加復雜和重要的工作任務?!?/p>
然而面對AI技術和工作模式的快速優(yōu)化與迭代,戴文淵卻并不期待現(xiàn)象級產品的誕生。
“我不否定現(xiàn)象級產品,如果能夠出現(xiàn)現(xiàn)象級產品,那一定是好的,但是我并不去期待這件事情的發(fā)生?!彼f,“有時候可能大家都希望橫空出世一個超級英雄,超越了過去的所有榜樣,但實際上,最終整個AI產業(yè)的蓬勃發(fā)展不可能靠一兩個人、一兩個產品,而是靠每一個人、在每一條細分賽道上辛勤耕耘。”
都說弱冠之年,尚不知虛名有何用。然而,戴文淵卻在2004代表上海交大獲得了ACM國際大學生程序設計競賽總決賽冠軍,21歲便開始在國際計算機領域嶄露頭角。
作為上海交大2002級ACM班上最耀眼的明星,戴文淵深知,在人工智能領域,注定不止一顆閃閃發(fā)光的星。如今四十出頭的他,自認為在AI行業(yè)已經不算年輕人。
“每一代人都有自己的價值,現(xiàn)在的年輕人越來越厲害,環(huán)境越來越好,接受到的教育也是優(yōu)質的,他們完全應該比我們做得更好。而我需要做的,是能夠更好地支持更多優(yōu)秀的年輕人,第四范式發(fā)展到今天,很多重要成果都是一些剛剛畢業(yè)一兩年的員工做出的。在十幾、二十幾年前,這樣的人才在中國非常稀缺,但今天,我們國家已經培養(yǎng)出了大量科班出身的AI人才,未來的高手就在他們中間。”戴文淵說。