Job Summary
Infra Dev Specialist responsible for designing automating and optimizing large scale monitoring and observability for enterprise infrastructure using AWS CloudWatch LogicMonitor and Splunk in a hybrid work model enabling reliable systems actionable insights and rapid incident detection for business critical services while collaborating closely with cross functional technology teams.
Responsibilities
Design and implement robust infrastructure monitoring solutions using AWS CloudWatch LogicMonitor and Splunk to provide deep visibility into application and platform health for business critical environments.Develop reusable monitoring templates dashboards and alerting policies that standardize observability across cloud and on premises systems while reducing manual configuration effort.Build and maintain automated ingestion pipelines that collect normalize and route logs metrics and events into Splunk and related observability tools to support rapid troubleshooting.Configure intelligent alert thresholds and noise reduction strategies in AWS CloudWatch and LogicMonitor to minimize false positives while ensuring timely notification of genuine service degradation.Collaborate closely with application infrastructure and security teams to translate functional and nonfunctional requirements into monitoring specifications that align with enterprise standards.Conduct detailed root cause analysis using Splunk searches correlation rules and visualizations to identify performance bottlenecks and recurring incidents that impact user experience.Optimize cost and performance of monitoring implementations by refining data retention sampling strategies and metric collection policies for various environments.Create and maintain clear operational runbooks that describe alert meaning diagnostic steps and remediation guidelines so support teams can respond consistently and efficiently.Implement infrastructure as code approaches for monitoring configurations using automation tools to enable repeatable deployments version control and environment consistency.Perform capacity and trend analysis using historical metrics and log data to forecast resource needs prevent outages and support data driven infrastructure planning.Partner with reliability and operations teams to define service level indicators and service level objectives and to align monitoring coverage with agreed reliability targets.Drive continuous improvement of monitoring quality by reviewing incident reports identifying visibility gaps and implementing targeted enhancements that reduce mean time to detect and mean time to resolve.Document monitoring architectures data flows and configuration standards in a concise and accessible manner to support knowledge sharing across global teams.
Qualifications
Apply a strong background in AWS services with hands on expertise in AWS CloudWatch features including custom metrics logs and alarms to design effective monitoring solutions.Leverage deep practical experience with Splunk including data onboarding index design search optimization and dashboard creation to deliver actionable operational insights.Use proven skills with LogicMonitor or similar platforms to configure device discovery metric collection and alert routing for diverse infrastructure components.Bring seven to eight years of overall infrastructure or operations experience with significant focus on observability monitoring engineering and incident management in enterprise settings.Demonstrate proficiency in at least one scripting language such as Python or PowerShell to automate monitoring deployment data transformations and routine maintenance tasks.Apply knowledge of networking operating systems and common enterprise platforms so that monitoring strategies accurately reflect dependencies and failure modes.Exhibit strong analytical and problem solving abilities with a track record of reducing incident frequency and improving system stability through data driven decisions.Communicate clearly with both technical and nontechnical stakeholders explaining monitoring metrics dashboards and alerts in understandable terms that support sound decisions.Adapt effectively to a hybrid work model by collaborating through digital channels documenting work thoroughly and maintaining high coordination with distributed teams.Maintain familiarity with security and compliance considerations related to log and metric data handling to ensure observability solutions meet organizational governance needs.
Certifications Required
AWS Certified SysOps Administrator or AWS Certified DevOps Engineer and Splunk Core Certified Power User or equivalent observability certification.
ข่าวประชาสัมพันธ์แบบสำเร็จรูปของ Cognizant
Cognizant(NASDAQ: CTSH) คือผู้สร้าง AI และผู้ให้บริการด้านเทคโนโลยี ซึ่งเชื่อมช่องว่างระหว่างการลงทุนใน AI และมูลค่าขององค์กรด้วยการสร้างโซลูชัน AI แบบครบวงจรให้แก่ไคลเอนต์ของเรา ความเชี่ยวชาญเชิงลึกด้านอุตสาหกรรม กระบวนการ และวิศวกรรมของเรา ช่วยให้เราผสานบริบทเฉพาะขององค์กรเข้ากับระบบเทคโนโลยีเพื่อเพิ่มศักยภาพมนุษย์ สร้างผลลัพธ์ที่จับต้องได้ และช่วยให้องค์กรระดับโลกก้าวนำหน้าอยู่เสมอในโลกที่เปลี่ยนแปลงไป ดูวิธีดำเนินการได้ที่ cognizant.ai หรือ @cognizant
ข้อมูลการจ้างงานเพิ่มเติม
ข้อมูลเกี่ยวกับค่าตอบแทนมีความถูกต้อง ณ วันที่ประกาศรับสมัครงานนี้ Cognizant ขอสงวนสิทธิ์ในการแก้ไขข้อมูลดังกล่าวได้ตลอดเวลา ภายใต้กฎหมายที่เกี่ยวข้อง
ผู้สมัครอาจถูกขอให้เข้ารับการสัมภาษณ์แบบพบตัวต่อตัวหรือผ่านการประชุมทางวิดีโอ นอกจากนี้ ผู้สมัครอาจถูกขอให้นำเอกสารประจำตัวที่ออกโดยหน่วยงานของรัฐ หรือบัตรประจำตัวที่ออกโดยรัฐบาลซึ่งยังมีผลบังคับใช้ มาแสดงในระหว่างการสัมภาษณ์แต่ละครั้ง
Cognizant เป็นนายจ้างที่ให้โอกาสอย่างเท่าเทียม การสมัครและการพิจารณาคุณสมบัติของคุณจะไม่ถูกตัดสินจากเชื้อชาติ สีผิว เพศ ศาสนา ความเชื่อ รสนิยมทางเพศ อัตลักษณ์ทางเพศ สัญชาติ ความพิการ ข้อมูลทางพันธุกรรม การตั้งครรภ์ สถานะทหารผ่านศึก หรือคุณลักษณะอื่นใดที่ได้รับการคุ้มครองตามกฎหมายของรัฐบาลกลาง รัฐ หรือท้องถิ่น