91伊人久久大香线蕉_青久久久久国产线免观_亚洲无码久久精品视频_熟妇在线观看免费视频

首頁 > 淘吧 > 正文

在小指尖上舞動“大數(shù)據(jù)”

核心提示: 張棟棟覺得自己骨子里是個“技術(shù)流”,喜歡跟機(jī)器打交道,遇到問題也愛“用技術(shù)說話”

即使事先知道要拍照,她的穿著還是出人意料的簡單:白T恤、黑裙子,當(dāng)然還少不了帶隔層的雙肩包來保護(hù)筆記本電腦——好像隨時(shí)都能拿出來寫上幾行代碼。

她的雙肩包像個“百寶箱”,里面除了裝著電腦,還備著各式接口的數(shù)據(jù)傳輸線,幾乎能連接這間小會議室里的所有設(shè)備

新產(chǎn)品上線前的那幾次測試,總是會發(fā)現(xiàn)一些意想不到的漏洞,需要連夜排除,大家往往會經(jīng)歷幾個不眠之夜。

張棟棟覺得自己骨子里是個“技術(shù)流”,喜歡跟機(jī)器打交道,遇到問題也愛“用技術(shù)說話”

在北京,“西二旗”是人流量最大的地鐵站之一。離此不遠(yuǎn)的中關(guān)村軟件園內(nèi),互聯(lián)網(wǎng)公司和高科技企業(yè)林立。在網(wǎng)上,“西二旗人”很容易被貼上標(biāo)簽,“碼農(nóng)”是最常見的說法。程序、算法、迭代、優(yōu)化……有人說,程序員的生活單調(diào)到只有睡眠和工作,就像代碼里的0和1。

1992年出生的張棟棟卻不認(rèn)同這些看法。她是曙光信息產(chǎn)業(yè)股份有限公司大數(shù)據(jù)及創(chuàng)新事業(yè)部的研究人員,也是一位工作在“西二旗”的人工智能算法工程師,主要從事超大規(guī)模視頻智能分析引擎開發(fā)和算法優(yōu)化工作。“90后”“女性”“程序員”,這些不同的特質(zhì)會在她的身上碰撞出怎樣的火花?記者日前來到位于中關(guān)村軟件園的曙光信息產(chǎn)業(yè)股份有限公司,體驗(yàn)“90后”人工智能算法工程師張棟棟的一天。

邊介紹邊演示,桌上這臺配置不錯的筆記本電腦也有些跟不上她的節(jié)奏,系統(tǒng)時(shí)不時(shí)會有些卡頓

即使事先知道要拍照,張棟棟今天的穿著還是出人意料的簡單:白T恤、黑裙子,當(dāng)然還少不了帶隔層的雙肩包來保護(hù)筆記本電腦——好像隨時(shí)都能拿出來寫上幾行代碼。

來到偌大的辦公平臺時(shí),已是上午10點(diǎn),張棟棟工位周圍的同事還不多。“一些人在出差,一些人在開會,一些人可能剛下班。”張棟棟說。為了不影響在工位上工作的同事,我們決定將體驗(yàn)地點(diǎn)換到一間小會議室。樓里的小會議室出奇的多,每間可以容納五六個人,白板上留著反復(fù)擦寫后的記號筆痕跡,仿佛能重現(xiàn)一場場熱烈的討論。

張棟棟的工作跟我們經(jīng)常能見到的“電子眼”相關(guān)。這些分布于各個角落的“電子眼”一直默默地守護(hù)著人們的安全,可是它們是如何在茫茫人海中快速、準(zhǔn)確地鎖定目標(biāo)的?又怎樣將數(shù)量龐大、響應(yīng)遲緩、內(nèi)容大多沒有應(yīng)用價(jià)值的監(jiān)控視頻變?yōu)楦撞檎?、能被深度挖掘的高密度?shù)據(jù)?在它們的背后,離不開一整套視頻智能分析系統(tǒng)的支持。

為了幫助我這個門外漢快速理解,張棟棟將自己上周的工作進(jìn)行了一場“情景還原”。“狹義上來說,人工智能也是一種算法,要靠數(shù)據(jù)來不斷優(yōu)化,大量的數(shù)據(jù)往往包含很多冗余甚至無用的信息,這時(shí)就需要數(shù)據(jù)清洗與整合。”張棟棟指著屏幕說。剛見面還有些靦腆的她,講起技術(shù)來似乎一下子放開了,“拿這組人臉圖片來說,每張都有標(biāo)簽,標(biāo)簽分很多列,分別標(biāo)注著所屬人的編號、性別、年齡等特征信息,當(dāng)然其中每個人也可能有多張圖片。”

“接下來要進(jìn)行的是數(shù)據(jù)的可視化操作,一是為查看圖片質(zhì)量,二是為獲得一個統(tǒng)計(jì)學(xué)上的數(shù)據(jù)描述,這時(shí)候就會發(fā)現(xiàn)一些‘噪音’(指對數(shù)據(jù)的干擾和影響)。”張棟棟舉例說,“比如一張圖片里可能有多個人臉或者沒有人臉,屬于同一個人的不同圖像卻發(fā)現(xiàn)根本不是一個人,或者同樣的圖片發(fā)現(xiàn)存了兩遍等等——系統(tǒng)錄入時(shí)的誤操作會導(dǎo)致這些情況的發(fā)生。要保證機(jī)器能夠?qū)W習(xí)到高質(zhì)量的數(shù)據(jù),就要把這些數(shù)據(jù)存在的問題羅列出來,再根據(jù)不同的問題找到數(shù)據(jù)清洗的方法。數(shù)據(jù)清洗是一個很重要的過程,雖然耗費(fèi)時(shí)間,但關(guān)系到后續(xù)模型的準(zhǔn)確率。”

邊介紹邊演示,桌上這臺配置不錯的筆記本電腦也有些跟不上她的節(jié)奏,系統(tǒng)時(shí)不時(shí)會有些卡頓,一直嘗試?yán)砬逅悸返奈乙彩且粯?。為了看起來方便,張棟棟連上了墻上的電子屏幕。這時(shí)我發(fā)現(xiàn),她的雙肩包像個“百寶箱”,里面除了裝著電腦,還備著各式接口的數(shù)據(jù)傳輸線,幾乎能連接這間小會議室里的所有設(shè)備。

鍵盤起起落落,一行行的代碼便落在了屏幕上,遠(yuǎn)程服務(wù)器上記錄著她每一次的靈光乍現(xiàn)

清洗完數(shù)據(jù),接下來還要對數(shù)據(jù)進(jìn)行前期預(yù)處理,包括從圖片中截取人臉、把分散的數(shù)據(jù)集中到同一個大文件中,這些工作都是在為后續(xù)的模型訓(xùn)練做準(zhǔn)備。張棟棟說:“人工智能對算力有很高的要求,原始數(shù)據(jù)體量大,處理過程就會耗用很多的CPU(中央處理器)資源,處理時(shí)間也比較長。后面訓(xùn)練時(shí),如果數(shù)據(jù)量太大,我們還會用到分布式并行訓(xùn)練的方法來提高速度。”此外,數(shù)據(jù)增強(qiáng)也是預(yù)處理的一部分,就是對剛才的工作反其道而行之——人為增加數(shù)據(jù)的“噪音”。

“數(shù)據(jù)清洗要去除噪音,這個時(shí)候?yàn)槭裁从忠黾釉胍裟兀?rdquo;我有些不解。“這是為了讓模型適應(yīng)多種實(shí)際場景,在人臉識別里,就是應(yīng)對逆光、人像不全等極端情況,專業(yè)名詞叫‘提高模型泛化能力’。”張棟棟解釋說。

把這些工作做完之后,還要在原來的算法結(jié)構(gòu)的基礎(chǔ)上進(jìn)行改進(jìn),俗稱“改代碼”。“人臉識別也有多種算法,需要選擇合適的來修改。我們前期已經(jīng)對各種算法進(jìn)行了評估,有一個大概的算法結(jié)構(gòu),只要拿過來稍微改一下就可以使用了。”

說到這里,我們才算進(jìn)入模型訓(xùn)練階段,張棟棟也正式開始了她今天的工作。“訓(xùn)練的過程其實(shí)就是一個降低損失函數(shù)(預(yù)測值與真實(shí)值之間差距)的過程。”鍵盤起起落落,一行行的代碼便落在了屏幕上,遠(yuǎn)程服務(wù)器上記錄著她每一次的靈光乍現(xiàn),也不會放過任何一個程序故障。

“在機(jī)器學(xué)習(xí)中,一般會將樣本分成獨(dú)立的三部分——訓(xùn)練集、驗(yàn)證集和測試集,其中測試集用來檢驗(yàn)?zāi)P偷男阅苋绾?。兩方面決定了一個模型或算法的好壞,一個是結(jié)構(gòu),另一個是模型參數(shù)。訓(xùn)練的最終目的就是要找到合適的參數(shù),使測試集的準(zhǔn)確率更高。”張棟棟說,當(dāng)最后測試集顯示準(zhǔn)確率已經(jīng)比較高,并且已經(jīng)收斂到一個平穩(wěn)的狀態(tài)后,訓(xùn)練就告結(jié)束,后續(xù)就可以對新數(shù)據(jù)進(jìn)行預(yù)測和推理。

“程序員真的能記住這么多的代碼嗎?”看她雙手如飛,我有些好奇。“其實(shí)這就跟我們背詩句、單詞差不多,熟能生巧嘛。”張棟棟笑了,“有時(shí)候也做不到一字不差,但大致的邏輯和思路是能記得的。”初秋的午后,陽光照射在園區(qū)空蕩的街道上,打開的窗邊偶爾會傳來幾聲鳥鳴,旋即被起伏的鍵盤敲擊聲所取代。旁邊幾間會議室的燈漸次點(diǎn)亮,人們進(jìn)進(jìn)出出。程序員工作的過程似乎不像傳說中的那般“壓力山大”。

“其實(shí)你只看到了一面”,她似乎看出了我的疑惑,“一個產(chǎn)品從開始階段的數(shù)據(jù)收集到最后模型訓(xùn)練結(jié)束,會出現(xiàn)各種各樣的問題。比如新產(chǎn)品上線前的那幾次測試,總是會發(fā)現(xiàn)一些意想不到的漏洞,需要連夜排除。大家都很緊張,往往會經(jīng)歷幾個不眠之夜。”

如今,張棟棟參與研制的超大規(guī)模視頻智能分析引擎已在國內(nèi)幾個大中城市落地應(yīng)用。它基于深度學(xué)習(xí)技術(shù)和人工智能算法搭建,集合了視頻匯聚分發(fā)、動態(tài)人臉識別、視頻結(jié)構(gòu)化分析、大數(shù)據(jù)多維分析等多項(xiàng)特點(diǎn),輕松練就了視頻監(jiān)控的“火眼金睛”,守護(hù)著千家萬戶的安全。

理想的工作和生活需要平衡,就像找到一個最優(yōu)的“算法”一樣

在這個男性占絕大多數(shù)的行業(yè)里,像她這樣的女孩并不多。張棟棟覺得自己骨子里是個“技術(shù)流”,喜歡跟機(jī)器打交道,遇到問題也愛“用技術(shù)說話”。

2015年從北京交通大學(xué)信息管理與信息系統(tǒng)專業(yè)畢業(yè)后,她選擇去英國留學(xué),就讀于倫敦大學(xué)學(xué)院網(wǎng)絡(luò)科學(xué)與大數(shù)據(jù)分析專業(yè),當(dāng)時(shí)人工智能技術(shù)剛剛在全球興起。張棟棟坦言,留學(xué)那段時(shí)間讓她真正認(rèn)識到,這項(xiàng)技術(shù)代表著未來。2016年3月,人工智能公司DeepMind聯(lián)合創(chuàng)始人戴密斯·哈薩比斯領(lǐng)銜開發(fā)的“阿爾法狗”(AlphaGo)與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),最終以4比1的總比分獲勝。哈薩比斯也畢業(yè)于這所學(xué)校。“不敢說以這樣的‘牛人’為榜樣,但他的成就對我確實(shí)產(chǎn)生了一些影響。”雖已離開學(xué)校,她至今還保持著讀論文的習(xí)慣,“人工智能技術(shù)發(fā)展太快,必須跟進(jìn)最前沿的技術(shù),讀論文算是最省時(shí)省力的辦法了。”

不知不覺中,天色漸晚,快到理論上的“下班時(shí)間”了,我們也逐漸從工作聊到了生活。張棟棟認(rèn)為,跟軟件園里很多人相比,自己算不上一個加班“狂人”。“理想的工作和生活需要平衡,就像找到一個最優(yōu)的‘算法’一樣,不斷降低自己的‘損失函數(shù)’。”

每天接觸最前沿的技術(shù),生活中張棟棟的愛好卻是歷史、博物館和古建筑。她還曾參加過一個這方面的公益組織,“我們會帶著大家去參觀博物館,也會傳播一些歷史文化知識。”她覺得這些活動能讓自己把節(jié)奏降下來,調(diào)節(jié)一下身心。

張棟棟樂于向身邊的同事們請教,也期盼著自己能通過努力來改進(jìn)他們的工作。“這是一個‘迭代’的過程,產(chǎn)品是這樣,技術(shù)是這樣,人也是這樣。”她認(rèn)為,“90后”比較獨(dú)立,對很多問題都有自己的判斷,不會人云亦云,這在創(chuàng)新方面是優(yōu)勢。“國內(nèi)在人工智能的應(yīng)用方面發(fā)展很快,但是在一些關(guān)鍵的、底層的理論和技術(shù)方面同國外相比還有差距,這是我們這代人應(yīng)該努力的方向。”

眾 說

沙超群(曙光信息產(chǎn)業(yè)股份有限公司高級副總裁):

還記得四五年前我的同事在臺上作報(bào)告時(shí),曾大聲呼吁“一定要給‘90后’機(jī)會”,轉(zhuǎn)眼間,我們很多團(tuán)隊(duì)中“90后”已經(jīng)挑起了大梁。這幾年我們公司的技術(shù)骨干中,“90后”的比例在快速提升,包括我們承擔(dān)的一些國家重大項(xiàng)目,其中也有相當(dāng)多“90后”的身影。

信息產(chǎn)業(yè)瞬息萬變,新技術(shù)不斷迭代,具體到產(chǎn)品層面往往時(shí)間緊、任務(wù)重、困難多、挑戰(zhàn)大,這些反而讓我在“90后”的身上看到了很多閃光點(diǎn)。我記得很清楚,去年“十一”長假,我們一個項(xiàng)目組40多人幾乎是全員加班。長假中間那天是中秋節(jié),我提前告訴他們“中秋那天不許來”,結(jié)果當(dāng)天我跑到公司一看,還是來了20多人,其中大部分都是“90后”。

張棟棟參與開發(fā)的這個視頻智能分析引擎,是世界上最大的在線視頻分析系統(tǒng)之一。她來公司還不到兩年,經(jīng)常一出差就是幾個月,“扎”在項(xiàng)目駐地不斷地優(yōu)化產(chǎn)品。這讓我這個“70后”感到“90后”也是能打硬仗的。

隨著經(jīng)驗(yàn)、閱歷的不斷增長,更多的優(yōu)秀“90后”正涌現(xiàn)出來。在我們公司承擔(dān)的E級超算原型機(jī)項(xiàng)目、“地球數(shù)值模擬裝置”原型裝置等重大項(xiàng)目中,“90后”正承擔(dān)起更多更艱巨的任務(wù)。

宋懷明(曙光信息產(chǎn)業(yè)股份有限公司大數(shù)據(jù)及創(chuàng)新事業(yè)部總工程師):

我們研發(fā)團(tuán)隊(duì)的平均年齡在30歲左右,“90后”已經(jīng)是這個團(tuán)隊(duì)的主力,占比30%以上,在一線從事技術(shù)攻關(guān)的比例更高。

張棟棟這些“90后”經(jīng)常要處理大量的數(shù)據(jù),在此基礎(chǔ)上不斷地去訓(xùn)練算法、優(yōu)化模型,有的時(shí)候只為提升那么一點(diǎn)精度和性能,就要做大量數(shù)據(jù)的計(jì)算。但也就是這一點(diǎn)精度,在實(shí)際應(yīng)用時(shí)會帶來非常明顯的效果,讓我感覺“90后”在精益求精方面是不輸于“80后”的。“90后”科技人員的成長背景決定了他們能夠接觸到大量的信息,思維轉(zhuǎn)換能力很強(qiáng),會從不同的角度去看問題,也會嘗試一些不同的方法來解決問題,這可能是“90后”科技人員的特質(zhì),也是創(chuàng)新的優(yōu)勢。我想,今后“90后”在處理具體問題的時(shí)候,如果能再多一點(diǎn)堅(jiān)持,多一些耐心,一定會取得更好的成果。(記者 谷業(yè)凱)

  • 微笑
  • 流汗
  • 難過
  • 羨慕
  • 憤怒
  • 流淚
責(zé)任編輯:趙文源