蘇州納米所劉欣研究員、周揚帆等在深度學習優化算法研究方面取得進展

  近年來,在材料科學、人工智能芯片等前沿領域,深度學習(Deep Learning)受到廣泛的研究和應用。具體來說,深度學習通過學習樣本數據的內在規律和表示層次實現機器像人一樣具有分析和學習的能力,因而在材料科學研究中可以幫助分析高維、非線性的特征數據;在人工智能芯片研發中可以提供高效、通用的網絡模型。區別于傳統的淺層學習,深度學習一般具有深層的神經網絡模型結構,比如目前最復雜的深度模型BERT含有1億個以上的參數。因此,深度模型的訓練(也就是求解模型的參數)一直是一項具有挑戰性的任務。 

  一般來說,求解深度模型參數的訓練算法具有兩個重要的性能指標:算法的收斂速度和泛化能力。目前,應用較廣泛的訓練算法是隨機梯度下降算法(SGD)和學習率自適應的隨機梯度下降算法(如AdamAdaBelief),其中SGD具有良好的泛化能力,但是收斂速度緩慢;AdamAdaBelief具有較快的收斂速度,但是泛化能力不如SGD。因此,使優化算法同時具備良好的泛化能力和快速的收斂速度一直是深度學習領域內的研究熱點之一。 

  中國科學院蘇州納米技術與納米仿生研究所劉欣研究員、周揚帆針對學習率自適應的隨機梯度下降算法Adabief在強凸條件下的收斂速度是否可以進一步提高的問題進行了首次嘗試,并給出了肯定的答案。團隊利用損失函數的強凸性,提出了一種新的算法FastAdaBelief(算法偽代碼如圖1所示),該算法在保持良好的泛化能力的同時,具有更快的收斂速度。 

     1FastAdaBelief算法偽代碼 

  該團隊根據理論證明的結果,進行了一系列的實驗研究,驗證了所提出的算法的優越性。首先,在softmax回歸問題上的實驗驗證了FastAdaBelief比其他算法的收斂速度更快(如圖2所示);然后,在CIFAR-10數據集上完成了多組圖像分類任務,結果表明,在實驗對比算法中,FastAdaBelief具有最快的收斂速度(如圖3所示),并且具有最好的泛化能力(如圖4所示);最后,在Penn Treebank數據集上的文本預測任務中,FastAdaBelief算法可以最快訓練出深度模型,并且得出的模型具有最小的混沌度(如圖5所示)。重要的是,該團隊發現FastAdaBelief在損失函數為強凸和非凸的情況下收斂速度都是最快的,因此證明了它作為一種新的基準優化算法的巨大潛力,可以廣泛應用于各種深度學習的場景中。 

    2softmax回歸問題中各算法的收斂速度對比 

    3CIFAR-10數據集上各算法的收斂速度對比 

      圖4:CIFAR-10數據集上各算法的泛化能力對比 

      5Penn Treebank數據集上各算法的收斂速度對比 

  綜上,該研究工作從理論上證明了FastAdaBelief的收斂速度比其他自適應優化算法快,并且通過大量充分的實驗驗證了該算法的泛化能力比其他自適應優化算法強,這可以幫助完成很多場景下的深度模型訓練任務,尤其是在樣本數據短缺、硬件計算算力不足的情況下。因此,在材料科學研究領域和人工智能芯片研發領域都具有很大的應用前景。 

  相關工作以 FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive Optimizers by Exploiting Strong Convexity 為題發表在 IEEE Transactions on Neural Networks and Learning Systems 期刊上。文章作者為博士研究生周揚帆(第一作者)、王旭光研究員、程誠副研究員、昆山杜克大學黃開竹教授和愛丁堡龍比亞大學Amir Hussain教授,通訊作者為劉欣研究員。工作得到了中科院“率先行動”引才計劃(No. Y9BEJ11001等項目的資助。 

  論文鏈接 


附件下載:

亚洲日韩精品无码中文字幕专区_亚洲日韩精品无码一区二区三区_亚洲日韩精品无码网址
<蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>|