為了擺脫本地部署的限制並擴展全球業務營運,越來越多組織開始轉向基於雲端的應用程式部署和微服務架構,為滿足客戶的不同需求,這也導致應用程式變得越來越分散。開發人員需要更多的自動化方法來維護應用程式的可用性,減少花費在檢測、偵錯和解決營運問題上的時間和精力。
Amazon Web Services(AWS)日前在其年度盛會AWS re:Invent上,宣佈推出完全託管的營運服務Amazon DevOps Guru。利用機器學習技術,該服務能助開發人員以自動化的方式檢測操作問題,並建議補救措施,提高應用程式的可用性。
利用Amazon.com和AWS多年的營運資料,Amazon DevOps Guru機器學習技術能夠自動收集和分析應用程式的指標、日誌、事件和追蹤等資料,識別偏離正常的程式運作模式,例如運算能力配置不足、資料庫I/O過度使用、記憶體漏失(memory leak)等。
當Amazon DevOps Guru識別出潛在風險,例如延遲、錯誤率和資源限制增加而導致應用程式異常服務中斷,就會向開發人員發出關於該問題的詳細資訊,例如涉及的資源、問題時間表和相關事件等,並透過Amazon Simple Notification Service(Amazon SNS)、Atlassian Opsgenie和PagerDuty等合作夥伴的整合服務,協助開發人員快速瞭解問題的潛在影響和可能原因,並提出具體的修復建議。開發人員無需手動設置或機器學習專業知識,即可提高應用程式的可用性和可靠性。
負責亞馬遜機器學習的AWS副總裁Swami Sivasubramanian表示:「客戶希望AWS運用專業知識持續提供新服務以增進應用程式可用性,同時學習Amazon.com的多年營運經驗。藉助Amazon DevOps Guru,我們透過AWS過往的經驗建立專門的機器學習模型,協助客戶檢測、排除故障並預防操作問題,在出現問題時提供智慧化建議。使客戶立即受益於營運Amazon.com中學到的最佳操作實踐,節省配置和管理多個監測系統上所花費的時間和精力。」
開發人員只需在Amazon DevOps Guru控制台簡單操作,即可自動提取和分析所有應用程式的歷史資源、延遲、錯誤率、請求率等基礎架構的指標,進而建立操作基準線,Amazon DevOps Guru就可透過預先訓練的機器學習模型識別與既定基準線的偏差。
當Amazon DevOps Guru分析系統和應用程式資料自動檢測異常時,能將這些資料產生營運洞察包括異常指標、隨著時間的推移對應用程式列為視覺化、以及相關補救措施的建議。
Amazon DevOps Guru現已在美國東部(北維吉尼亞)區域、美國東部(俄亥俄)區域、美國西部(俄勒岡)區域、亞太(新加坡)區域和歐洲(愛爾蘭)區域進行預覽,並將在未來幾個月中在其它地區推出。
Amazon DevOps Guru不用預付費用或預先承諾,客戶只需為Amazon DevOps Guru分析的資料付費。