Dynatrace Innovate: Observability & Application Security, Mandatory for Business Resilience
Abbiamo avuto il piacere di poter partecipare, come team QA di Sorint.lab, all’evento DynatraceInnovate2024 RoadShow, dove si è parlato di sfide, obiettivi e punti cardine (oramai un must-to-have) del mondo QA-Observability e di come la piattaforma Dynatrace possa supportare in questo mondo in continua evoluzione e di importanza strategica per il business.
La sfida principale si delinea principalmente in tre macro tematiche:
- Maggiore Produttività: evitando proliferazione di N tool di monitoraggio, ma equipaggiarsi con uno o comunque pochi tool complementari, per ottenere una visione tutto tondo ed il meno possibile spezzettata
- Riduzione Costi: rendere veloci le WarRoom, o meglio ancora azzerare, se possibile. Automatizzare in modo intelligente, per estrarre informazioni utili dai dati. Observability End-to-End completa (autocorrelata su tutto lo stack, verticale ed orizzontale su entità, sistemi, servizi)
- Certezza di avere sempre un Software Sicuro (con rilevazioni ed audit, runtime 7x24 contestualizzati al proprio ambiente per criticità e vulnerabilità, mostrate con una priorità sensata ed istantanea, senza lunghi e costosi scan)
I CIO dovrebbero portare Innovazione nelle proprie aziende, sfruttando le tecnologie per avere “un observability estesa e completa” composta da Efficienza + Sicurezza + Resilienza (che vanno in contro alle normative europee DORA e NIS2) per capire i sintomi prima che diventino problemi sugli utenti finali, in modo tale da poter sempre dare una risposta a questa domanda: “Quanto l’IT, o uno specifico pezzo, sta influenzando il business?” (un’azione lenta, un problema di security, configurazioni infrastrutturali non correttamente configurate, ecc..). Per rispondere a questa domanda, servono: Metrics/Traces/Logs/User Behavior/Events/Topology/Metadata/Code Level Details uniti e correlati (meglio se in modo automatico e veloce).
Le dashboard, sono spesso il punto di ingresso dei vari team, ciascuna con kpi per il proprio perimetro di competenza. Tuttavia il valore non è solo nel numero di dashboard o quanti Tile ha una dashboard (più è estesa e più è impegnativo tenerla sempre sott’occhio), ma il poter tradurre in modo veloce, l’informazione dedotta dai dati (suggerita/analizzata da AI causale e predittiva che fa il lavoro “complicato” per noi, analizzando migliaia o milioni di interazioni orizzontali e verticali sullo stak – tra sistemi diversi in hybrid cloud, per fornire la root cause a portata di tutti). Anche lato ‘graficazione’ dei dati, si parla di livelli, ovvero al business interesserà la qualità del proprio software sull’esperienza utente. Poi scendendo si valuteranno kpi dei servizi core, per finire poi sul dettaglio verticale delle parti IT.
L’observability (classica od estesa) può aiutare su vari fronti:
- avere uno strumento per mantenere una ‘memoria storica’ utile per migrazioni in cloud o modernizzazione applicativa
- Intercettare e dare una risposta ai problemi transitori (solitamente di performance) difficili da catturare e risolvere
- observability by design può essere un ulteriore approccio che aiuterà poi una volta rilasciato il software (pensando già in fase di progetto: kpi/naming convention/ gestione allarmi / template di osservabilità, completezza di visione e successivi milestone da raggiungere nel tempo)
- Disaster Recovery – Continuos Security Audit – Quality Gate, le ulteriori aree che una volta monitorate e configurate in ambito APM, aiuteranno a chiudere il cerchio dell’avere un’alta Qualità del Software.
L’approccio di un unico tool di observability completo a tutti i team, pone l’obiettivo di trasformare “WarRoom” in “CollaborationRoom” dove lo scopo non è più capire cosa è successo (già il tool c’è lo dice) ma solo chi deve fixarlo. Questo riduce il tempo necessario di persone/team da ore a minuti molto probabilmente. Interessante il fatto che non solo “la visione infrastrutturale o sul software” può essere osservata, ma informazioni (out-of-the-box con dashboard gen3 già preconfezionate) portano informazioni utili su
- EfficienzaEconomica (Finops) = cost saving su risorse dando già una risposta su Quanto Tagliare ma senza che questo vada ad impattare sulla UX (performance actions)
- ImpattoAmbientale (ESG) = avere una governance (e visione) sull’impatto ambientale comparato ai kpi di business, per alcune aziende (magari soggetti ad investimenti) può essere un punto di attenzione da valutare. Un software altamente efficiente fa bene agli utenti e al contempo all’ambiente
- Business Analytics = sfruttare eventi rilevati / comportamenti utenti, per supportare e guidare casi d’uso aziendali che concorrono a guidare processi di business.
In conclusione, i temi visti e gli speech seguiti, raccontano problemi e obiettivi, che nel day-by-day, spesso si incontrano e si intrecciano per qualunque tecnologia adottata e in qualunque settore un azienda operi. La complessità tecnologica è in costante aumento, la “pazienza” degli utenti sui sistemi digitali è scesa nell’era post pandemia (meno tolleranza alla lentezza della pagine web o delle app). La velocità dei rilasci applicativi, per non restare indietro ai competitor, porta ad una vera e propria corsa contro il tempo per testare e validare il nuovo rilascio in termini di QA. L’observability estesa e completa in un unico tool, è dunque il “collante” per facilitare queste sfide.
Luigi,Valeria (Application Performance Team)
ENGLISH We had the pleasure of being able to participate, as the Sorint.lab QA team, in the DynatraceInnovate2024 RoadShow event, where we talked about the challenges, goals, and cornerstones (now a must-to-have) of the QA-Observability world and how the Dynatrace platform can support in this ever-evolving and strategically important business world.
The main challenge is mainly outlined in three macro themes:
- Increased Productivity: avoiding proliferation of N monitoring tools, but equipping with one or at least a few complementary tools, to achieve an all-around view and as little fragmented as possible.
- Cost Reduction: make WarRooms fast, or better yet zero them out, if possible. Automate intelligently, to extract useful information from the data. Complete End-to-End Observability (self-correlated across the stack, vertical and horizontal across entities, systems, services).
- Certainty of always having Secure Software (with detections and audits, 7x24 runtimes contextualized to one's environment for criticality and vulnerabilities, shown with sensible and instantaneous prioritization, without lengthy and expensive scans)
CIOs should bring Innovation to their companies, leveraging technologies to have “an extended and comprehensive observability” composed of Efficiency + Security + Resilience (going against the European DORA and NIS2 regulations) to understand symptoms before they become problems on end users, so that they can always give an answer to this question, “How much is IT, or a specific piece, affecting the business?” (a slow action, a security problem, improperly configured infrastructure configurations, etc.). To answer this question, you need: Metrics/Traces/Logs/User Behavior/Events/Topology/Metadata/Code Level Details joined and correlated (preferably automatically and quickly).
Dashboards, are often the entry point for the various teams, each with kpi for their own perimeter of expertise. However, the value is not just in the number of dashboards or how many Tiles a dashboard has (the more extensive it is, the more challenging it is to keep an eye on it all the time), but being able to translate quickly, the information deduced from the data (suggested/analyzed by causal and predictive AI that does the 'complicated' work for us, analyzing thousands or millions of horizontal and vertical interactions on the stak - between different systems in hybrid cloud, to provide the root cause at everyone's fingertips). Also on the 'graphing' side of the data, we talk about layers, i.e., the business will care about the quality of its software on the user experience. Then going down they will assess kpi of core services, ending then on the vertical detail of IT parts.
Observability (classical or extended) can help on several fronts:
- have a tool to maintain a 'historical memory' useful for cloud migrations or application modernization
- Intercept and respond to transient (usually performance) problems that are difficult to capture and solve
- observability by design can be an additional approach that will then help once the software is released (thinking early in the design phase: kpi/naming conventions/alarm management/observability templates, completeness of vision and subsequent milestones to be achieved over time)
- Disaster Recovery - Continuos Security Audit - Quality Gate, the additional areas that once monitored and configured in the APM environment, will help close the circle of having high Software Quality.
The approach of one comprehensive observability tool to all teams sets the goal of turning “WarRoom” into “CollaborationRoom” where the goal is no longer to figure out what happened (the tool is already there to tell) but only who needs to fix it. This reduces the time needed by people/teams from hours to minutes most likely. Interesting that not only “the infrastructure or software view” can be observed, but information (out-of-the-box with pre-packaged gen3 dashboards) brings useful information on
- EconomicEfficiency (Finops) = cost saving on resources already giving an answer on How Much to Cut but without impacting UX (performance actions)
- EnvironmentalImpact (ESG) = having governance (and vision) on environmental impact compared to business kpi, for some companies (perhaps subject to investment) can be a point of focus to evaluate. Highly efficient software is good for users and good for the environment at the same time
- Business Analytics = leveraging detected events/user behaviors, to support and drive business use cases that help drive business processes.
In conclusion, the issues seen and the speeches followed, tell of problems and goals, which in the day-by-day, often meet and intertwine for whatever technology adopted and in whatever sector a company operates. Technological complexity is steadily increasing, users' “patience” on digital systems has dropped into the post-pandemic era (less tolerance for slow web pages or apps). The speed of application releases, not to fall behind competitors, leads to a real race against time to test and validate the new release in terms of QA. Extended and comprehensive observability in a single tool, is therefore the “glue” to facilitate these challenges.
Luigi,Valeria (Application Performance Team)