CTimes - 機器學習驅動雲端部署自動化 AWS推出Amazon DevOps Guru:機器學習,自動化,AWS

為了擺脫本地部署的限制並擴展全球業務營運，越來越多組織開始轉向基於雲端的應用程式部署和微服務架構，為滿足客戶的不同需求，這也導致應用程式變得越來越分散。開發人員需要更多的自動化方法來維護應用程式的可用性，減少花費在檢測、偵錯和解決營運問題上的時間和精力。

Amazon Web Services（AWS）日前在其年度盛會AWS re:Invent上，宣佈推出完全託管的營運服務Amazon DevOps Guru。利用機器學習技術，該服務能助開發人員以自動化的方式檢測操作問題，並建議補救措施，提高應用程式的可用性。

利用Amazon.com和AWS多年的營運資料，Amazon DevOps Guru機器學習技術能夠自動收集和分析應用程式的指標、日誌、事件和追蹤等資料，識別偏離正常的程式運作模式，例如運算能力配置不足、資料庫I/O過度使用、記憶體漏失（memory leak）等。

當Amazon DevOps Guru識別出潛在風險，例如延遲、錯誤率和資源限制增加而導致應用程式異常服務中斷，就會向開發人員發出關於該問題的詳細資訊，例如涉及的資源、問題時間表和相關事件等，並透過Amazon Simple Notification Service（Amazon SNS）、Atlassian Opsgenie和PagerDuty等合作夥伴的整合服務，協助開發人員快速瞭解問題的潛在影響和可能原因，並提出具體的修復建議。開發人員無需手動設置或機器學習專業知識，即可提高應用程式的可用性和可靠性。

負責亞馬遜機器學習的AWS副總裁Swami Sivasubramanian表示：「客戶希望AWS運用專業知識持續提供新服務以增進應用程式可用性，同時學習Amazon.com的多年營運經驗。藉助Amazon DevOps Guru，我們透過AWS過往的經驗建立專門的機器學習模型，協助客戶檢測、排除故障並預防操作問題，在出現問題時提供智慧化建議。使客戶立即受益於營運Amazon.com中學到的最佳操作實踐，節省配置和管理多個監測系統上所花費的時間和精力。」

開發人員只需在Amazon DevOps Guru控制台簡單操作，即可自動提取和分析所有應用程式的歷史資源、延遲、錯誤率、請求率等基礎架構的指標，進而建立操作基準線，Amazon DevOps Guru就可透過預先訓練的機器學習模型識別與既定基準線的偏差。

當Amazon DevOps Guru分析系統和應用程式資料自動檢測異常時，能將這些資料產生營運洞察包括異常指標、隨著時間的推移對應用程式列為視覺化、以及相關補救措施的建議。

Amazon DevOps Guru現已在美國東部（北維吉尼亞）區域、美國東部（俄亥俄）區域、美國西部（俄勒岡）區域、亞太（新加坡）區域和歐洲（愛爾蘭）區域進行預覽，並將在未來幾個月中在其它地區推出。

Amazon DevOps Guru不用預付費用或預先承諾，客戶只需為Amazon DevOps Guru分析的資料付費。