前言

SkyWalking 是什么？

分布式系统的应用程序性能监视工具，专为微服务、云原生架构和基于容器（Docker、K8s、Mesos）架构而设计。提供分布式追踪、服务网格遥测分析、度量聚合和可视化一体化解决方案。

简单来说，SkyWalking是一款全链路追踪系统，可以视为OpenTracing的一种实现，类似的还有Zipkin、Jaeger等等，但是SkyWalking的接入方式采用了Java Agent的方式，达到了0代码无侵入，接入成本几乎为零。所以非常推荐使用。

部署

参考官方文档，简要的总结下DockerCompose的部署方式。

新建docker-compose.yaml文件

version: '3.8'
services:
  elasticsearch:
    image: elasticsearch:7.17.6
    container_name: elasticsearch
    ports:
      - "9200:9200"
    volumes:
      - ./esdata01:/usr/share/elasticsearch/data
    healthcheck:
      test: [ "CMD-SHELL", "curl --silent --fail localhost:9200/_cluster/health || exit 1" ]
      interval: 30s
      timeout: 10s
      retries: 3
      start_period: 10s
    environment:
      - discovery.type=single-node
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
    ulimits:
      memlock:
        soft: -1
        hard: -1

  oap:
    image: apache/skywalking-oap-server:8.9.1
    container_name: oap
    depends_on:
      elasticsearch:
        condition: service_healthy
    links:
      - elasticsearch
    ports:
      - "11800:11800"
      - "12800:12800"
    healthcheck:
      test: [ "CMD-SHELL", "/skywalking/bin/swctl ch" ]
      interval: 30s
      timeout: 10s
      retries: 3
      start_period: 10s
    environment:
      SW_STORAGE: elasticsearch
      SW_STORAGE_ES_CLUSTER_NODES: elasticsearch:9200
      SW_HEALTH_CHECKER: default
      SW_TELEMETRY: prometheus
      JAVA_OPTS: "-Xms2048m -Xmx2048m"

  ui:
    image: apache/skywalking-ui:8.9.1
    container_name: ui
    depends_on:
      oap:
        condition: service_healthy
    links:
      - oap
    ports:
      - "8090:8080"
    environment:
      SW_OAP_ADDRESS: http://oap:12800

运行docker-compose命令

运行一下命令就可以启动SkyWalking，存储后端是Elasticsearch

docker-compose up -d
...
Container elasticsearch  Started
Container elasticsearch  Waiting
Container elasticsearch  Healthy
Container oap  Starting
Container oap  Started
Container oap  Waiting
Container oap  Healthy
Container ui  Starting
Container ui  Started

然后打开http://localhost:8090/

这样就部署完成了，是不是非常简单？

更换存储后端

SkyWalking官方推荐使用Elasticsearch作为存储后端，但是还支持其他的作为存储后端。具体可以参考：skyapm.github.io/document-cn…

原生支持的存储

H2
ElasticSearch 6, 7
MySQL
TiDB
InfluxDB

支持存储的重分发版本。

ElasticSearch 5

各个存储后端的配置如下，我们如果要更换，只需要配置docker-compose.yaml的环境变量即可

H2

H2是嵌入式数据库，一般测试使用，生产禁止使用

storage:
  selector: ${SW_STORAGE:h2}
  h2:
    driver: org.h2.jdbcx.JdbcDataSource
    url: jdbc:h2:mem:skywalking-oap-db
    user: sa

ElasticSearch

storage:
  selector: ${SW_STORAGE:elasticsearch}
  elasticsearch:
    # nameSpace: ${SW_NAMESPACE:""}
    user: ${SW_ES_USER:""} # User needs to be set when Http Basic authentication is enabled
    password: ${SW_ES_PASSWORD:""} # Password to be set when Http Basic authentication is enabled
    clusterNodes: ${SW_STORAGE_ES_CLUSTER_NODES:localhost:443}
    trustStorePath: ${SW_SW_STORAGE_ES_SSL_JKS_PATH:"../es_keystore.jks"}
    trustStorePass: ${SW_SW_STORAGE_ES_SSL_JKS_PASS:""}
    protocol: ${SW_STORAGE_ES_HTTP_PROTOCOL:"https"}
    indexShardsNumber: ${SW_STORAGE_ES_INDEX_SHARDS_NUMBER:2}
    indexReplicasNumber: ${SW_STORAGE_ES_INDEX_REPLICAS_NUMBER:0}
    # Batch process setting, refer to https://www.elastic.co/guide/en/elasticsearch/client/java-api/5.5/java-docs-bulk-processor.html
    bulkActions: ${SW_STORAGE_ES_BULK_ACTIONS:2000} # Execute the bulk every 2000 requests
    bulkSize: ${SW_STORAGE_ES_BULK_SIZE:20} # flush the bulk every 20mb
    flushInterval: ${SW_STORAGE_ES_FLUSH_INTERVAL:10} # flush the bulk every 10 seconds whatever the number of requests
    concurrentRequests: ${SW_STORAGE_ES_CONCURRENT_REQUESTS:2} # the number of concurrent requests
    advanced: ${SW_STORAGE_ES_ADVANCED:""}

MySQL

storage:
  selector: ${SW_STORAGE:mysql}
  mysql:
    properties:
      jdbcUrl: ${SW_JDBC_URL:"jdbc:mysql://localhost:3306/swtest"}
      dataSource.user: ${SW_DATA_SOURCE_USER:root}
      dataSource.password: ${SW_DATA_SOURCE_PASSWORD:root@1234}
      dataSource.cachePrepStmts: ${SW_DATA_SOURCE_CACHE_PREP_STMTS:true}
      dataSource.prepStmtCacheSize: ${SW_DATA_SOURCE_PREP_STMT_CACHE_SQL_SIZE:250}
      dataSource.prepStmtCacheSqlLimit: ${SW_DATA_SOURCE_PREP_STMT_CACHE_SQL_LIMIT:2048}
      dataSource.useServerPrepStmts: ${SW_DATA_SOURCE_USE_SERVER_PREP_STMTS:true}
    metadataQueryMaxSize: ${SW_STORAGE_MYSQL_QUERY_MAX_SIZE:5000}

TiDB

storage:
  selector: ${SW_STORAGE:mysql}
  mysql:
    properties:
      jdbcUrl: ${SW_JDBC_URL:"jdbc:mysql://localhost:3306/swtest"}
      dataSource.user: ${SW_DATA_SOURCE_USER:root}
      dataSource.password: ${SW_DATA_SOURCE_PASSWORD:root@1234}
      dataSource.cachePrepStmts: ${SW_DATA_SOURCE_CACHE_PREP_STMTS:true}
      dataSource.prepStmtCacheSize: ${SW_DATA_SOURCE_PREP_STMT_CACHE_SQL_SIZE:250}
      dataSource.prepStmtCacheSqlLimit: ${SW_DATA_SOURCE_PREP_STMT_CACHE_SQL_LIMIT:2048}
      dataSource.useServerPrepStmts: ${SW_DATA_SOURCE_USE_SERVER_PREP_STMTS:true}
    metadataQueryMaxSize: ${SW_STORAGE_MYSQL_QUERY_MAX_SIZE:5000}

InfluxDB

storage:
  selector: ${SW_STORAGE:influxdb}
  influxdb:
    url: ${SW_STORAGE_INFLUXDB_URL:http://localhost:8086}
    user: ${SW_STORAGE_INFLUXDB_USER:root}
    password: ${SW_STORAGE_INFLUXDB_PASSWORD:}
    database: ${SW_STORAGE_INFLUXDB_DATABASE:skywalking}
    actions: ${SW_STORAGE_INFLUXDB_ACTIONS:1000} # the number of actions to collect
    duration: ${SW_STORAGE_INFLUXDB_DURATION:1000} # the time to wait at most (milliseconds)
    fetchTaskLogMaxSize: ${SW_STORAGE_INFLUXDB_FETCH_TASK_LOG_MAX_SIZE:5000} # the max number of fetch task log in a request

以InfluxDB举例替换存储后端

version: '3.8'
services:
  influxdb:
    image: bitnami/influxdb:1.8.5
    container_name: influxdb-server
    ports:
      - "8086:8086"
    environment:
      - INFLUXDB_ADMIN_USER_TOKEN=FvSo2szLLZ88qJrk
      - INFLUXDB_ADMIN_USER_PASSWORD=FvSo2szLLZ88qJrk
      - INFLUXDB_USER=gcdd
      - INFLUXDB_USER_PASSWORD=FvSo2szLLZ88qJrk
      - INFLUXDB_DB=skywalking
    volumes:
      - "./data:/bitnami/influxdb"

  oap:
    image: apache/skywalking-oap-server:8.9.1
    container_name: oap
    links:
      - influxdb
    ports:
      - "11800:11800"
      - "12800:12800"
    environment:
      SW_STORAGE: influxdb
      SW_STORAGE_INFLUXDB_URL: http://influxdb:8086
      SW_STORAGE_INFLUXDB_USER: admin
      SW_STORAGE_INFLUXDB_PASSWORD: FvSo2szLLZ88qJrk
      SW_HEALTH_CHECKER: default
      SW_TELEMETRY: prometheus
      JAVA_OPTS: "-Xms2048m -Xmx2048m"

  ui:
    image: apache/skywalking-ui:8.9.1
    container_name: ui
    links:
      - oap
    ports:
      - "8090:8080"
    environment:
      SW_OAP_ADDRESS: http://oap:12800

初体验

SkyWalking的UI做的还是非常可以的，美观且实用。

参考：APM-Skywalking UI使用全攻略

指标仪表盘

服务指标

点击仪表盘，选择要查询的应用，如“is-file-store”, 再切换仪表盘为“Service”模式，即可查询对应服务的指标

服务主要指标包括

ApdexScore：性能指数，Apdex(Application Performance Index)是一个国际通用标准，Apdex 是用户对应用性能满意度的量化值。它提供了一个统一的测量和报告用户体验的方法，把最终用户的体验和应用性能作为一个完整的指标进行统一度量，其中最高为1最低为0；
ResponseTime：响应时间，即在选定时间内，服务所有请求的平均响应时间(ms)；
Throughput: 吞吐量，即在选定时间内，每分钟服务响应的请求量(cpm)
SLA: service level agreement，服务等级协议，SW中特指每分钟内响应成功请求的占比。

大盘中会列出以上指标的当前的平均值，和历史走势。

服务慢端点 Service Slow Endpoint

服务指标仪表盘会列举出当前服务响应时间最大的端点Top5，如果有端点的响应时间过高，则需要进一步关注其指标（点击可以复制端点名称）。

运行中的实例 Running ServiceInstance

该服务目前所有实例的吞吐量情况，通过此可以推断出实例之间的负载情况。如果发现某个实例吞吐量较低，就需要查询实例指标（如查询该实例是不是发生了GC，或则CPU利用率过高）

端点指标

如果发现有端点的响应时间过高，可以进一步查询该端点的指标信息。和服务指标类似，端点指标也包括吞吐量、SLA、响应时间等指标，这里不再赘述。

端点仪表盘会有如下特有信息：

Dependency Map: 依赖关系图，代表哪些服务在依赖（调用）该端点，如果是前端直接调用，会显示为用户（User）依赖中；
Slow Traces: 即慢调用请求记录，SW会自动列出当前时间段内端点最慢的调用记录和TraceID，通过这个ID可以在追踪功能找到具体的调用链信息，便于定位。