小紅書/華為/海外lab,堅持實習教會我什么?
收藏已取消
收藏成功
已添加至{{ selectCollectNames.join(',') }}
{{!collectStatus ? '收藏' : '已收藏'}}
指南者留學 Journey
2022年12月04日
閱讀量:1965
<p style="text-align: justify;"><img style="width: 808px; height: 61px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/sucai/content/1669967937792/1669967937792.png" width="808" height="61" /></p>
<p style="text-align: center;">個人實習背景:本科一段華為,碩士兩段,一段海外諾亞方舟lab,一段小紅書。<br /><img style="width: 808px; height: 606px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_php5BwXoc.jpg" width="808" height="606" /><img src="https://info.compassedu.hk/info_imgUrl_php3N0Cm5.jpg" width="808" height="1077" /></p>
<p style="text-align: center;"><img style="width: 808px; height: 582px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpeAWrZR.jpg" width="808" height="582" /><span class="h6">(小紅書)</span></p>
<p style="text-align: center;"><img style="width: 808px; height: 539px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpv6v3vh.jpg" width="808" height="539" /><span class="h6">(諾亞)</span></p>
<p style="text-align: center;"><img style="width: 808px; height: 606px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpFaMhzo.jpg" width="808" height="606" /><span class="h6">(華為)</span></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">都去實習!</span></strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">早點去實習!不是慫恿大家都去卷,拋開實習中可能會碰到的方方面面的困難,但不可否認,實習確實可以<strong>縮小自己在校園階段的認知和市場真正需求之間的gap</strong>,同時也是在實踐中找到真正的興趣點和方向的最快途徑,因為在有應屆生身份期間,我們的試錯成本相對比較低,雖然上班了也可以試錯,但代價可能就是被開除了。我也是在實習中不斷試錯和摸索,逐漸在<strong>系統(tǒng),研究和業(yè)務三大板塊</strong>中橫向比較自己到底更適合哪種工作內容和作息。</p>
<p style="text-align: justify;"><br />同時,實習也是培養(yǎng)自己向上社交的地方,跟上一個好mentor,是很可能會起飛的,比如我就有朋友在微軟和百度跟leader出了1作頂會,直接被強推去直博了;亦或是有一個氛圍很好的團隊,我開始健身就是因為團隊主任經(jīng)常喊實習生去樓下健身房鍛煉,周三下班打籃球,一塊食堂吃飯和傍晚園區(qū)跑步,這對后期逐漸養(yǎng)成鍛煉習慣有很大幫助,作為團隊老大,leader一直通過實際行動在帶動大家,不管是在工作和強身健體上,都是有正向作用的。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">系統(tǒng),研究,業(yè)務崗實習體驗</span></strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">1:<strong>系統(tǒng):三者中對基本功和底層理解要求最高的</strong>,一般來說寫架構或者系統(tǒng),得精通C++,golang,CUDA等相對門檻較高的編程語言,走system track是三者里最容易轉CTO的,也就是all in 技術;缺點也是同樣,<strong>門檻高,難度較大</strong>,適合編程能力和智商較高的同學;</p>
<p style="text-align: justify;"><br />2:<strong>研究:三者中相對比較work life balance</strong> ,一般來說就是讀最新論文,找問題,提出idea,做實驗驗證idea,投論文或者相關國際評測比賽(俗稱刷榜),個人覺得研究崗優(yōu)勢就是不會太忙,時間相對自由;缺點是一般<strong>門檻較高,校招研究工程師基本是phd了</strong>,然后目前也只有大公司會有l(wèi)ab,但也在做產(chǎn)研結合了,還是會為了技術落地的;</p>
<p style="text-align: justify;"><br />3:<strong>業(yè)務:三者中相對賺錢最快的崗位</strong>,比如推薦/廣告算法這種,阿里廣告一年收入將近3000億,其實主要靠的就是算法和工程這塊帶來的變現(xiàn),因此這也是大部分同學比較適合的方向;缺點就是<strong>加班多,比較累,校招核心業(yè)務組難度較大</strong>(內卷),對候選人的綜合能力要求比較高;</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">實習的收獲</span></strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>01 數(shù)據(jù)決定天花板</strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">技術崗或多或少都要和各種數(shù)據(jù)打交道,所以我們要深入理解數(shù)據(jù),直觀感受線上線下指標波動。</p>
<p style="text-align: justify;"><br />在學校,基本所有深度學習項目是離線進行的,也就是說一般會在1-多個bench-mark(公開權威數(shù)據(jù)集上做各種實驗),但是這些數(shù)據(jù)集往往都是清洗好的,做個數(shù)據(jù)管道就可以喂到模型里,但實踐生產(chǎn)中,<strong>數(shù)據(jù)要復雜的多</strong>,比如很多數(shù)據(jù)是雜亂缺失的,數(shù)據(jù)分布極為不均衡(有些類別有幾w個樣本,有的只有幾十條),以及<strong>很多數(shù)據(jù)標簽不完備,甚至沒有標注</strong>,因此為了提高數(shù)據(jù)集質量,我們需要先單獨通過一些半監(jiān)督/自監(jiān)督模型去預測原始數(shù)據(jù)對應的標簽,再撰寫標注文檔,送標進行人工復核(對接標注團隊,進行人工復核)。</p>
<p style="text-align: justify;"><br /><strong>02 學會多指標協(xié)同評估結果</strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">緊接著,算法團隊拿到這些標注好的數(shù)據(jù),這時候,一般需要結合業(yè)務場景去進行模型選型,甚至還需要去調研一些最新開源的論文中的模型并嘗試復現(xiàn)和根據(jù)輸入做適應性改進。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">當一些指標穩(wěn)定后(比如召回,map,AUC,F1等),將模型送給數(shù)據(jù)分析/產(chǎn)品交付團隊進行<strong>線上全量數(shù)據(jù)測試</strong>,理想的話,就可以算作驗收和上線了,但是大概率會有一些問題反饋或者被打回來進行修改,比如線上線下數(shù)據(jù)/特征分布不一致導致需要重新構造數(shù)據(jù)集的正負樣本/分析特征分布來<strong>改進模型構造策略</strong>,同時,除觀測一些動態(tài)指標外,我們仍然需要考慮<strong>上線后性能開銷等</strong>,有時甚至需要損失一定精度去保模型可以部署在端側(移動端,云端等),熟悉NLP的同學知道,很多時候直接上預訓練模型是很難直接上線的(Bert,T5等,模型參數(shù)量有的達到幾十個G),因此<strong>評價一個算法或者技術方案好壞其實是多維度的</strong>,并不僅僅依賴于幾個數(shù)學指標!</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">因此整個流程走下來,是一環(huán)扣一環(huán)的,除了要深刻理解數(shù)據(jù)外,<strong>有較好的論文檢索和快速的代碼復現(xiàn)能力</strong>也是很重要,因為在企業(yè)是要講究效率的,沒有太多時間放松下來,當然作為實習生一開始往往都有些不太適應,這時候需要及時和mentor反饋和尋求組里幫助,該說就要說!最后,如何和不同團隊進行有效溝通和對接也是項目拉通/對齊與否的關鍵,作為實習生,主管也讓我們全程參與到他們的OKR中,學習和鍛煉項目拆解/業(yè)務理解能力。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>03 鍛煉實際場景問題分析與思考</strong><br /><br /></p>
<p style="text-align: justify;">為了解決實際業(yè)務問題,我們需要分析問題,但具體怎么分析比較寬泛,比如不妨我們一塊來思考一個問題,<strong>老板讓團隊在一個月內從0-1搭建一個面向美妝場景的垂類搜索框架,怎么去構思?</strong></p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>數(shù)據(jù):</strong></p>
<ul>
<li style="text-align: justify;">目前有大規(guī)模數(shù)據(jù)么?有合作方提供還是需要去購買(taobao/shopee/shein)?</li>
<li style="text-align: justify;">獲取數(shù)據(jù)后,需要做EDA,數(shù)據(jù)質量如何(缺失,長尾現(xiàn)象)?</li>
<li style="text-align: justify;">有沒有小樣本甚至零樣本情況?標注情況(如果標注不準,需要更新送標文件)?</li>
<li style="text-align: justify;">美妝類商品樣本的語義空間是什么,是集中的還是零散的?</li>
<li style="text-align: justify;">有多少數(shù)據(jù)可以進一步挖掘,有多大難度(是否需要先做聚類,是否需要構造正負樣本集)?</li>
<li style="text-align: justify;">品牌別名出現(xiàn)概率大么?需要做相關數(shù)據(jù)挖掘么?</li>
<li style="text-align: justify;">是否公司已有相關詞庫,如果沒有需要盡快構建,構建過程中的新詞挖掘怎么做?是否有必要進行領域預訓練增強模型感知特定領域詞匯能力?</li>
<li style="text-align: justify;">除了文本,是否需要跨膜態(tài)數(shù)據(jù)?(圖像,短視頻等)</li>
</ul>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong>應用場景:</strong></p>
<ul>
<li style="text-align: justify;">性能要求和硬件要求?(移動端還是網(wǎng)頁端?遲延要求多少毫秒?),由于性能原因,語言模型、大型詞典可能不會被使用。</li>
<li style="text-align: justify;">類別的名詞性質是什么,是否需要足夠的名詞信息來支持?</li>
<li style="text-align: justify;">建索引這塊數(shù)據(jù)庫選???</li>
<li style="text-align: justify;">美妝商品類目體系如何建立或者快速匹配已有商品庫?</li>
<li style="text-align: justify;">Badcase多不多?是否需要直接上規(guī)則約束?上多少比例規(guī)則?</li>
<li style="text-align: justify;">需要的泛化能力是什么?例如如是粵語/俚語,那么泛化能力需要更強,泛化能力則需要來自于遷移能力好的模型,無論</li>
<li style="text-align: justify;">分類模型還是搜索的語義匹配模型,如何選取適配的模型?</li>
<li style="text-align: justify;">是否需要多模態(tài)模型?多模態(tài)預訓練這塊團隊有人擅長么?</li>
<li style="text-align: justify;">維護的詞匯表需要的更新頻率呢?定期更新的頻率會更高,而更新頻率較高的部分,用文本分類會受到限制。</li>
</ul>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;">實質上,這是實際業(yè)務場景中需要考慮的方方面面的縮影,同時,我們更要從工程師角度去看待不同模塊之間的耦合,努力做到滿足業(yè)務/用戶需求的同時,比如可以繼續(xù)追求算法/硬件之間的協(xié)同優(yōu)化,減少企業(yè)性能開銷。</p>
<p style="text-align: justify;"> </p>
<p style="text-align: justify;"><strong><span class="h1">什么樣的項目更吸引面試官?</span></strong></p>
<p style="text-align: justify;"> </p>
<ul>
<li style="text-align: justify;"><strong>只要是流程完整,有自己理解和思考的經(jīng)歷都屬于項目經(jīng)歷。</strong></li>
</ul>
<p style="text-align: justify;"><br />很多人局限于必須要頂會,但是頂會不是一般同學可以發(fā)的,同時不對口的paper在面試官看來一樣可能沒啥吸引力,因此不論有無好paper,真正掌握實操經(jīng)驗才是最重要的。</p>
<p style="text-align: justify;"><br />要明白算法重要的不是你使用了什么技術,而是<strong>使用它的動機和理論依據(jù)</strong>,比方說,很多項目,用的都不是單一的技術,模型;有些場景,用規(guī)則反而比深度學習模型效果更好;有些場景,樹模型效果特好,優(yōu)于神經(jīng)網(wǎng)絡;有些場景,需要模型具備很好的泛化能力等。</p>
<p style="text-align: justify;"> </p>
<ul>
<li style="text-align: justify;"><strong>要想順利通過面試,就要站在面試官的角度去想問題。</strong></li>
</ul>
<p style="text-align: justify;"><br />這兩年隨著崗位飽和或者企業(yè)降本增效,公司作為招聘方,更關注項目落地的可行性,不喜歡假大空選手。因為招人進來是要把項目推進起來并最終落地產(chǎn)生收益,請放下一些學生思維,比如我拿了xxx獎學金,我GPA一直第一,誠然確實優(yōu)秀,不過這在企業(yè)看來,并不能<strong>體現(xiàn)你能產(chǎn)生商業(yè)價值或者有靈敏的思維和潛力</strong>,所以公司可能會去要一個績點不高但是動手能力很強的同學,這是現(xiàn)狀,也很正常。</p>
<p style="text-align: justify;"><br />最后,實習不就是為了見識不同類型的企業(yè)和文化嗎?也能讓你了解到自己想要什么和將來的方向,過程中難免有不開心,委屈,不理解或者疲憊,<strong>不要內耗就好,當作成長,其實是件好事</strong>,當然如果很不幸,部門存在pua或者實習內容太水,比如純打雜學不到新東西等,也不要勉強自己,直接提離職就好。</p>
<p style="text-align: justify;"><img style="width: 808px; height: 188px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/sucai/content/1669967949311/1669967949311.png" width="808" height="188" /></p>