（ちゃんとした翻訳・要約ではなく、読みながらのメモです）

envoy は様々な Service Discovery Software と Integrate できる
envoy の core concept は data plane を controll plane から分離し、control plane から source of truth となる configuration を変更できることである
まずは control plane が service discovery に接続できる必要があり、それは以下の 3 step に分けられる
Decide on a control plane implementation
Publish service definitions to Envoy clusters
Publish hosts/containers/instances to Envoy endpoints

いうても control plane まだないぞ、みたいな気持ちで続きを読んでいく。

いかなる control plane も Envoy v2 xDS APIs を実装する必要がある。

www.envoyproxy.io

istio の場合 pilot がそれに該当する。

その後の CDS / EDS の話ははいという感じ。

最後に、Service Discovery はめちゃくちゃたくさんの問い合わせがくるのでどう分割するかという話。データセンター、地域で分割したり、サービスのニーズによって分割したり。

さて、まだ Control Plane を持っていないのだが、現状 Kubernetes 上で Service Discovery は誰が担っているかというと、k8s service になる。

k8s service が実際に転送先の pod の IP の list を持っていて、pod 生き死にすると、新しい endpoint を service が知るので、envoy cluster 側は転送したい cluster IP だけ知っていればよく、かつそれは kube-dns で引ける。

そう考えるとこのパターンだと service discovery という感じではなく、load balancing は service が行うことになるので、envoy としては cluster が単一の宛先を覚えてるだけですね。

istio が入るとこのへんどう変わってくるんだろうか。なんか envoy だけまずは知ろうとしてるけど早くも control plane の話出てきたし順番間違ったかな。まぁこのまま進むけど。

2020-01-08

LEARN ENVOY - Getting Started / Getting Help

www.envoyproxy.io

困ったときログレベル変えられるようにしとこうと。

これね。

-l <string>, --log-level <string> --log-path <path string>

何をいれりゃいいんだと思って、envoy の help みる。

root@d21849f0ad80:/# envoy -h

USAGE:

   envoy  [--disable-extensions <string>] [--use-fake-symbol-table <bool>]
          [--cpuset-threads] [--enable-mutex-tracing]
          [--disable-hot-restart] [--max-obj-name-len <uint64_t>]
          [--max-stats <uint64_t>] [--mode <string>]
          [--parent-shutdown-time-s <uint32_t>] [--drain-time-s <uint32_t>]
          [--file-flush-interval-msec <uint32_t>] [--service-zone <string>]
          [--service-node <string>] [--service-cluster <string>]
          [--hot-restart-version] [--restart-epoch <uint32_t>] [--log-path
          <string>] [--log-format-escaped] [--log-format <string>]
          [--component-log-level <string>] [-l <string>]
          [--local-address-ip-version <string>] [--admin-address-path
          <string>] [--reject-unknown-dynamic-fields]
          [--allow-unknown-static-fields] [--allow-unknown-fields]
          [--config-yaml <string>] [-c <string>] [--concurrency <uint32_t>]
          [--base-id <uint32_t>] [--] [--version] [-h]


Where:

   --disable-extensions <string>
     Comma-separated list of extensions to disable

   --use-fake-symbol-table <bool>
     Use fake symbol table implementation

   --cpuset-threads
     Get the default # of worker threads from cpuset size

   --enable-mutex-tracing
     Enable mutex contention tracing functionality

   --disable-hot-restart
     Disable hot restart functionality

   --max-obj-name-len <uint64_t>
     Deprecated and unused; please do not specify.

   --max-stats <uint64_t>
     Deprecated and unused; please do not specify.

   --mode <string>
     One of 'serve' (default; validate configs and then serve traffic
     normally) or 'validate' (validate configs and exit).

   --parent-shutdown-time-s <uint32_t>
     Hot restart parent shutdown time in seconds

   --drain-time-s <uint32_t>
     Hot restart and LDS removal drain time in seconds

   --file-flush-interval-msec <uint32_t>
     Interval for log flushing in msec

   --service-zone <string>
     Zone name

   --service-node <string>
     Node name

   --service-cluster <string>
     Cluster name

   --hot-restart-version
     hot restart compatibility version

   --restart-epoch <uint32_t>
     hot restart epoch #

   --log-path <string>
     Path to logfile

   --log-format-escaped
     Escape c-style escape sequences in the application logs

   --log-format <string>
     Log message format in spdlog syntax (see
     https://github.com/gabime/spdlog/wiki/3.-Custom-formatting)

     Default is "[%Y-%m-%d %T.%e][%t][%l][%n] %v"

   --component-log-level <string>
     Comma separated list of component log levels. For example
     upstream:debug,config:trace

   -l <string>,  --log-level <string>
     Log levels:
     [trace][debug][info][warning][error][critical][off]

     Default is [info]

   --local-address-ip-version <string>
     The local IP address version (v4 or v6).

   --admin-address-path <string>
     Admin address path

   --reject-unknown-dynamic-fields
     reject unknown fields in dynamic configuration

   --allow-unknown-static-fields
     allow unknown fields in static configuration

   --allow-unknown-fields
     allow unknown fields in static configuration (DEPRECATED)

   --config-yaml <string>
     Inline YAML configuration, merges with the contents of --config-path

   -c <string>,  --config-path <string>
     Path to configuration file

   --concurrency <uint32_t>
     # of worker threads to run

   --base-id <uint32_t>
     base ID so that multiple envoys can run on the same host if needed

   --,  --ignore_rest
     Ignores the rest of the labeled arguments following this flag.

   --version
     Displays version information and exits.

   -h,  --help
     Displays usage information and exits.


   envoy

はい。

起動オプションとして設定できるので、時がきたら使ってみる、でいいかな。

2020-01-07

LEARN ENVOY - Getting Started / Routing Basics

www.envoyproxy.io

Routing components

Route

A route is a set of rules that match virtual hosts to clusters and allow you to create traffic shifting rules. Routes are configured either via static definition, or via the route discovery service (RDS).

仮想ホスト名を clusters に一致させるルールセット。static に設定することも、route discovery service を使うこともできる。

Cluster

A cluster is a group of similar upstream hosts that accept traffic from Envoy. Clusters allow for load balancing of homogenous service sets, and better infrastructure resiliency. Clusters are configured either via static definitions, or by using the cluster discovery service (CDS).

upstream の host group のこと。こちらも static に設定することも、cluster discovery service を使うこともできる。

Listener

A listener is a named network location (e.g., port, unix domain socket, etc.) that can accept connections from downstream clients. Envoy exposes one or more listeners. Listener configuration can be declared statically in the bootstrap config, or dynamically via the listener discovery service (LDS).

downstream からの通信を受け付ける君。static にも dynamic にもできる。

Defining Routes

前回の sample を参照する。domain がワイルドカードになっているが、 specific にしてもいい。foo.example.com みたいな。host header が残ってれば。

virtual_hosts:
  - name: backend
    domains:
    - "*"

clusters definition は特にコメントなし。

Configuring listeners

これもシンプルなので特に気になるところはないかな。

          http_filters:
          - name: envoy.router
            config: {}

ここには何が入るんだろ。

envoy.router はこれ。

www.envoyproxy.io

なるほど、timeout とか retry とかを header に埋めて設定できるんですね。

filter.network.HttpFilter は他にこんなやつがある。

envoy.buffer
envoy.cors
envoy.fault
envoy.http_dynamo_filter
envoy.grpc_http1_bridge
envoy.grpc_json_transcoder
envoy.grpc_web
envoy.health_check
envoy.lua
envoy.rate_limit
envoy.router

www.envoyproxy.io

おわり

とにかく公式ドキュメントが頼りになりすぎてよい。

2020-01-06

LEARN ENVOY - Getting Started / On Your Laptop

www.envoyproxy.io

動かした。つまりこういうこと。

f:id:take_she12:20200105214208p:plain

補足

service[12]-container において、envoy process と flask process の group は表現できなかった
なんか最初の user -> front-envoy のフローで http スキーマのあとの // が消えて斜線になってしまった
front の cluster からの通信では、docker-compose の alias で service[12] で名前解決している
listen してる port とか表現できてないけど通信の URL でわかってほしい
肝心の match prefix service/1 の最後の数字が消えてる。。。
admin port は省略している。でも 8001 で browser でアクセスするといろんな情報みれて便利

感想

スッと動いて便利。最初の最初にこれやるのはよさそう。

Service 間通信を Envoy 経由で行い、Metrics を取得する

はじめに

現職では Application はすべて Kubernetes 上で動いている。その場合、インターネットからの通信経路は以下のようになる。

Internet -> Reverse Proxy(Nginx) -> Service Router(Nginx) -> Kubernetes Service -> Pod

で、後半の Service Router から先が Kubernetes Cluster となっている。Type: LoadBalancer で受けたあと、forwarding して service-router と呼んでいる Nginx に飛ばしている。

現状、一部で Microservices が動いていたり、Distributed Monolith を Microservices に切ろうとしていたりするが、Service Router 以降の、Pod（Application）同士の通信は Kubernetes Service 作成時に kube-dns に自動的に登録される domain 名で、直接通信している。

インターネット経由でのアクセスの場合は Reverse Proxy や Service Router での Metrics は取得できるが、そうではない、Service 間の通信は現状 Application Layer でしか Metrics を取得できないという問題がある。

それの何が問題かというと、Microservices 単位で SLI/SLO を設定するときに困る。NewRelic などの APM でも取得できるのだが、現状 SLI/SLO は DataDog Widget で管理しているので、なんにせよ Datadog のほうで SLI の計測は行いたいのだ。

どうする

直接通信する代わりに、間に Envoy を Proxy として挟む。

Before

Service A --(http://service_b)--> Service B

After

Service A --(http://localhost:10000)-->Envoy-->(http://service_b)-->Service B

Service A の Container と Envoy の Container は同一 Pod として動いている。いわゆる Sidecar である。

具体的な設定差分はこんな感じになる。

configmap でも Deployment の env でもなんでもいいが、（最悪直接書いてもいいが）Service A の Container の環境変数に、Service B への URL をいれる。

            - name: SERVICE_B_URL
              value: localhost:10000

Envoy の config は以下のようになる。

apiVersion: v1
kind: ConfigMap
metadata:
  name: "${SERVICE_NAME}-envoy-config"
data:
  envoy.yaml: |
    admin:
      access_log_path: /dev/stdout
      address:
        socket_address: { address: 127.0.0.1, port_value: 9901 }
    static_resources:
      listeners:
      - name: listener_0
        address:
          socket_address: { address: 0.0.0.0, port_value: 10000 }
        filter_chains:
        - filters:
          - name: envoy.http_connection_manager
            config:
              stat_prefix: ingress_http
              codec_type: AUTO
              route_config:
                name: local_route
                virtual_hosts:
                - name: service1_grpc
                  domains: ["*"]
                  routes:
                  # Envoy admin endpoints
                  - match: { prefix: "/server_info" }
                    route: { cluster: envoy_admin }
                  - match: { prefix: "/stats" }
                    route: { cluster: envoy_admin }
                  # HTTP endpoint
                  - match: { prefix: "/v1/example/todo" }
                    route: { cluster: service_b_http }
                  - match: { prefix: "/v2/example/todo" }
                    route: { cluster: service_b_http }
              http_filters:
              - name: envoy.router
                config: {}
      clusters:
      - name: service_b_http
        connect_timeout: 5s
        type: STRICT_DNS
        lb_policy: ROUND_ROBIN
        dns_lookup_family: V4_ONLY
        load_assignment:
          cluster_name: service_b_http
          endpoints:
          - lb_endpoints:
            - endpoint:
                address:
                  socket_address:
                    address: service_b
                    port_value: 80
      - name: envoy_admin
        connect_timeout: 0.250s
        type: LOGICAL_DNS
        lb_policy: ROUND_ROBIN
        hosts:
        - socket_address:
            protocol: TCP
            address: 127.0.0.1
            port_value: 9901

実はこれ以外にも gRPC の Client Load Balancing としても Envoy を以前から利用していた。今回は http を proxy することで metrics を取得した。envoy の metris はこの設定のように /stats をあけておいて、annotation を設定すればよい。

docs.datadoghq.com

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: "${SERVICE_NAME}"
spec:
  replicas: 1
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app: "${SERVICE_NAME}"
  template:
    metadata:
      name: "${SERVICE_NAME}"
      labels:
        app: "${SERVICE_NAME}"
        version: v0.1
      annotations:
        ad.datadoghq.com/${SERVICE_NAME}-envoy.check_names: |
          ["envoy"]
        ad.datadoghq.com/${SERVICE_NAME}-envoy.init_configs: |
          [{}]
        ad.datadoghq.com/${SERVICE_NAME}-envoy.instances: |
          [
            {
              "stats_url": "http://%%host%%:10000/stats"
            }
          ]

Envoy の config

以下のドキュメントを参考にすれば簡単に動いた。

www.envoyproxy.io

google.com へ https で proxy してる部分を http にしただけだ。

ただ、知っておくべき概念だけ簡単に復習しておく。

static_resources の対になるところは dynamic_resources だと思うが、それはまたそのうち。

Listeners

listeners (Listener) Static Listeners. These listeners are available regardless of LDS configuration.

はい。

www.envoyproxy.io

Listeners 以下の設定例はこれだが、そもそも何かというと、名前の通り、どういう基準で通信を受け付けるか、ということを記述するところである。

address のみが Required になっている。

Listener は複数設定できる。今回の例では address はこうなっている。

      listeners:
      - name: listener_0
        address:
          socket_address: { address: 0.0.0.0, port_value: 10000 }

任意の IP Address の port 10000 で受け付ける。

さらに、条件を絞るために filter_chains という設定がある。

www.envoyproxy.io

filter_chain_match でその criteria を記載する。

www.envoyproxy.io

ここの apply ordering は重要そうである。

The following order applies:

Destination port.
Destination IP address.
Server name (e.g. SNI for TLS protocol),
Transport protocol.
Application protocols (e.g. ALPN for TLS protocol).
Source type (e.g. any, local or external network).
Source IP address.
Source port.

今回はこの filter_chains ではなく、 filters を使っている。

Order matters as the filters are processed sequentially as connection events happen とある通り順番重要。

さらに typed_config に潜っていきたいが、それ自体の説明はない。

もう一度 Getting Started の config を見てみると、

listeners:
- name: listener_0
  address:
    socket_address: { address: 0.0.0.0, port_value: 10000 }
  filter_chains:
  - filters:
    - name: envoy.http_connection_manager
      typed_config:
        "@type": type.googleapis.com/envoy.config.filter.network.http_connection_manager.v2.HttpConnectionManager
        stat_prefix: ingress_http
        codec_type: AUTO
        route_config:
          name: local_route
          virtual_hosts:
          - name: local_service
            domains: ["*"]
            routes:
            - match: { prefix: "/" }
              route: { host_rewrite: www.google.com, cluster: service_google }

http_connection_manager とやらを使っていて、そこの設定を使っているのだろう。

http_connection_manager とは何かというと

www.envoyproxy.io

やばい！飽きてきた。まぁこんな風に filters として使えるものがプロトコルによって異なるものを採用できる、プラガブルになっていることがわかった。

Network Filters の一覧はこのへん。

www.envoyproxy.io

例えば MySQL とか MongoDB とか Redis とかありますね。これらへの接続も Envoy Proxy 経由で行うことでいい感じにすることができそう。今は掘らない。

Clusters

Clusters は Listeners で受けたものを流す対象。Listener は Clusters のみを知っていればよく、実際の通信先は Clusters がいい感じに知っているという仕組みになっているようだ。Service Discovery を Clusters が担っている。

www.envoyproxy.io

基本的には通信を proxy する upstream やらをどうやって discovery するかを書けば良さそうだ。

もう一度 Getting Started の Example から。

clusters:
- name: service_google
  connect_timeout: 0.25s
  type: LOGICAL_DNS
  # Comment out the following line to test on v6 networks
  dns_lookup_family: V4_ONLY
  lb_policy: ROUND_ROBIN
  load_assignment:
    cluster_name: service_google
    endpoints:
    - lb_endpoints:
      - endpoint:
          address:
            socket_address:
              address: www.google.com
              port_value: 443
  transport_socket:
    name: envoy.transport_sockets.tls
    typed_config:
      "@type": type.googleapis.com/envoy.api.v2.auth.UpstreamTlsContext
      sni: www.google.com

ここで多分きっと重要な type を深掘りしておこう。

type (Cluster.DiscoveryType) The service discovery type to use for resolving the cluster.

Only one of type, cluster_type may be set.

service discovery type だと言っている。

さて詳細はこちらの Document にのっている。

www.envoyproxy.io

5種類の Type がある。

Static

Static is the simplest service discovery type. The configuration explicitly specifies the resolved network name (IP address/port, unix domain socket, etc.) of each upstream host.

その名の通り IP Address なり Range なりを Static に記述するタイプですね。具体的な設定例はこんな感じになりそう。

  clusters:
    - name: service_ipsum_echo_1
      connect_timeout: 0.25s
      http_protocol_options: {}
      lb_policy: ROUND_ROBIN
      type: STATIC
      hosts:
        - socket_address: {address: 172.16.221.30, port_value: 8000 }

Strict DNS

When using strict DNS service discovery, Envoy will continuously and asynchronously resolve the specified DNS targets. Each returned IP address in the DNS result will be considered an explicit host in the upstream cluster. This means that if the query returns three IP addresses, Envoy will assume the cluster has three hosts, and all three should be load balanced to. If a host is removed from the result Envoy assumes it no longer exists and will drain traffic from any existing connection pools. Note that Envoy never synchronously resolves DNS in the forwarding path. At the expense of eventual consistency, there is never a worry of blocking on a long running DNS query.

決められたタイミングで DNS 問い合わせを行い、その結果を採用する。3つの IP アドレスが解決されれば 3つホストがあると認識するし、いなくなればいなくなったと判断する。毎回の DNS Query にて service discovery を行うように読み取れる。ふむという感じ。

Logical DNS

Logical DNS uses a similar asynchronous resolution mechanism to strict DNS. However, instead of strictly taking the results of the DNS query and assuming that they comprise the entire upstream cluster, a logical DNS cluster only uses the first IP address returned when a new connection needs to be initiated. Thus, a single logical connection pool may contain physical connections to a variety of different upstream hosts. Connections are never drained. This service discovery type is optimal for large scale web services that must be accessed via DNS. Such services typically use round robin DNS to return many different IP addresses. Typically a different result is returned for each query. If strict DNS were used in this scenario, Envoy would assume that the cluster’s members were changing during every resolution interval which would lead to draining connection pools, connection cycling, etc. Instead, with logical DNS, connections stay alive until they get cycled. When interacting with large scale web services, this is the best of all possible worlds: asynchronous/eventually consistent DNS resolution, long lived connections, and zero blocking in the forwarding path.

非同期的に DNS 問い合わせを行う点は Strict DNS と同じだが、Logical DNS は新規接続時に DNS 問い合わせを行い、得た結果の最初の1つのみを採用して通信を行う。

ポイントは Connections are never drained というところで、一度 Connection を確立した場合、再度問い合わせを行ったりせずにずっとその IP アドレスを使うという点だろう。

イマイチ When interacting with large scale web services, this is the best of all possible worlds なポイントがしっくりきていない。Strict だと Member が変わった時一気に接続先が更新されて Gradually じゃない点がよくないってことなんだろうか、？

Original destination

Original destination cluster can be used when incoming connections are redirected to Envoy either via an iptables REDIRECT or TPROXY target or with Proxy Protocol. In these cases requests routed to an original destination cluster are forwarded to upstream hosts as addressed by the redirection metadata, without any explicit host configuration or upstream host discovery. Connections to upstream hosts are pooled and unused hosts are flushed out when they have been idle longer than cleanup_interval, which defaults to 5000ms. If the original destination address is not available, no upstream connection is opened. Envoy can also pickup the original destination from a HTTP header. Original destination service discovery must be used with the original destination load balancer.

when incoming connections are redirected to Envoy either via an iptables REDIRECT or TPROXY target or with Proxy Protocol

iptables REDIRECT か TPROXY target で受けた場合に機能すると言っている。のでそうなんだろう。Istio とかがやってるのはこれなのかもしれない。わからない。

Endpoint discovery service (EDS)

The endpoint discovery service is a xDS management server based on gRPC or REST-JSON API server used by Envoy to fetch cluster members. The cluster members are called “endpoint” in Envoy terminology. For each cluster, Envoy fetch the endpoints from the discovery service. EDS is the preferred service discovery mechanism for a few reasons:

xDS management server を使って dynamic に routing 先を取得したりするんだろうか。

今後

軽く公式ドキュメント追いかけながらメモしようと思ってはじめたが思いの外長くなったのでこのへんで終わる。

年末に http で通信している Service 間通信に Envoy をいれる PR を出したので年明け早々に Production に出すつもりである。

まだまだ Envoy は入門したばかりなので、今後も定期的に Official Document を見て機能を理解していきたい。具体的には、Learn Envoy をざっと見て、Envoy でできることをざっくり理解する。

www.envoyproxy.io

目下現実的に優先度高くやりたいと思っているのは Circuit Breaking 。さっさと当たり前の世界にしていきたい。あとは Dynamic Configuration もおさえておきたい。

あとは Kakku さんがやってる Try Envoy も一通りみておきたい。

kakakakakku.hatenablog.com

タイトル眺めた感じ。。。どれも見ておいたほうがよさそうだな。

最終的には全 Service 間通信に Envoy を経由するようにしたい。手元でやるには限界がくるので、そのタイミングでより上位の Service Mesh の Software を検討することになると思う。

Envoy でやれることをちゃんと理解した上で、Istio / AppMesh も動作検証していきたい。

追記

タイトルにある通り、ちゃんと Metrics はとれました。

代表的な HTTP での Availability / Latency の SLI となる Metrics がとれたので安心。

f:id:take_she12:20200105183137p:plain

2020-01-01

2020年

雑感。

まぁ目標は数ヶ月でなかったことになるよね。そうならないようにクォータごとに振り返りしたらいいんでないかと思うけどそれもなされないままでした。

オライリー Safari はやめちゃったし、健康面は無限に太ったままだし、お金も無限に使っているままである。

仕事（SRE）と英語にフォーカスしてばっかりだった気がする。あと酒。

期待と違った点は

SRECon Asia に登壇した
英語学習をはじめた。今も継続できている。
チームで自分がバリューを発揮できるところができた 一通りなんでもSREの仕事ができるようになった上で、自分がリードしての改善も月に1つ以上はできるようになる。
社内、社外ともにネットワーキングが広がった

ところが嬉しい誤算。

あと仕事面ではこっちでも振り返りをしたばっかりだったり。

blog.chaspy.me

ひとつずつみていこう。

2019年振り返り

blog.chaspy.me

Engineering

Engineering SREとしてもっと「いい感じ」に。学習は英語主体に、スピードが落ちないように、本質をつかむようにやっていく。オライリー Safariをちゃんと元とったって言えるように使う。

幸い、日頃の運用業務、他チームからの依頼に加えて、中・長期的な改善、ビッグプロジェクトとやりがいのあるチームにいる。一通りなんでもSREの仕事ができるようになった上で、自分がリードしての改善も月に1つ以上はできるようになる。

今足りてないのは、日常のひとつひとつの動作の効率化なので、それは継続的にメンテナンスする。大きめな/新しめなことを学ぶときは登壇と合わせてアウトプット駆動にする。本を読んで終わりにしなくてちゃんと手を動かすか、まわりに伝える、という学習法にしたい。

Engineering Skill は伸びたかというと微妙だけど、後半書いてることはできてるんじゃないかと思う。

English

English 今年一番力をいれたい。TOEICを目標にするつもりはないので、定量的な力が出しづらいところ。

とりあえず直近は2月にフィリピンに行くので、最低限の英会話ができるようになること。あとは仕事上の読み書きを調べずに大意を読めるようになること。（特に書きがまだ検索しながらで、チャットでのレスポンスが遅れがち）。海外カンファレンスのキーノートスピーチの英語ぐらいは理解できるようになること。

英語でのプレゼンテーションもやれるようにしたい。

まさかまさかの SRECon 登壇、そして日々のオンライン英会話、SRE-Global のアサインと、やっとのこと英語が日常に溶けてきたと思う。

とはいえ実力は全然ついてないので、来年こそ質をあげて、確かな「ビジネス英語」力を身につけたい。

あとほかブログに書いてるのはまぁダメ。

でも結構やっていった1年だと思う。

登壇

https://chaspy.me/presentation/

meetup 4本、conference 2本、うち1つは海外、うち1つは 600規模ということでこれまでできなかった一歩が踏み出せたと思う。

コミュニティ活動

SRE Lounge（SRE NEXT）と Terraform-jp とまぁ毎月なにかしらはやっている感じだった。

本当にネットワーキングが広がった1年だと思う。

SRE NEXT うまくいきますように。

その他

カメラはじめた
太った

そんなもん。たくさん旅行したな。

2020年

Engineering / Career

本とか、カンファレンスとか、あと知り合いとかから、自分たちより進んでいる事例を聴いて、自分たちの方向性や位置を確かめることができる機会がいくらかあった。

あとはそれを実現するための技術力だが、技術力って問題を解決した数であり、なんかもうやるしかないんじゃないかっていう気がする。開き直りかもしれない。

実は問題を正しく捉えることが難しいので、そこの感度を、コミュニティに頼りながらあげていき、確実に効果が得られるものを技術で実現していきたい。

自分は良い意味で技術にこだわりがないと思っているので、方法はなんでもいい。

先行事例、他社事例を本、カンファレンス、記事、コミュニティから得ることで、今後自分たちが直面する課題に対する打ち手の選択肢を持っておく
目指す姿と現状の問題の解像度を高く持つことで、自分たちが直面している課題の優先順位を決められるようにする
既存の技術がどのような問題をどのように解決するのか、その思想や原理を理解することで、実装時に迷ったり失敗する確率を下げる

抽象度が高くなったが、このあたりを心得ると良さそう。

1つ目はコミュニティのおかげかだいぶ得る機会を持てたと思う。引き続き交流を広げていきたいし、こちらかも Give していきたい。

2つ目は足りてないので2020年は特に注力したい。社内ではプラットフォームを使うユーザは開発者であり、開発者の要望をもっと得る必要がある。特にいまは Global を主に見ているので、フィリピン、インドネシアの Developer とのコミュニケーションをかなり密に持ちたい。あとは Global のビジネスの規模や今後の方向性もちゃんと理解したい。年末カントリーマネージャーと話したのはよかった。ビジネスの展望と、その成長のためのプラットフォームの成長の足踏みを合わせる必要があると思う。

3つ目はずっとずっと課題に思っていることだ。悪い意味で技術にこだわりがないので、問題に直面しない限り深掘りしないというのは Software Engineer としていかがなものかという葛藤もある。（とはいえ時間は有限だし、ね）このあたりも2つ目で未来をより見通すことで、「これはやっておかないといけない」という気持ちになって深掘りすることになるのかもしれない。直近だと ServiceMesh(Envoy / Istio) は事前に先取りしておかないとな、という気持ちはある。

というわけでこうやって言語化できたのはよかったんではないか。（自己満足）

そう考えると問題を解決しまくれる職場というのは技術者にとっていい職場ですね。

Career とも書いてるな。少なくともやることは山積みなので次の1年は転職はないです。

English

2019年8月から DMM 英会話を中心に、だんだんと英語を使う機会も、時間も増えてきて、しかもそれを継続できているのは本当に去年で1番よかったことだと思う。僕はまず継続が1番の敵だと思っていたからだ。これに関しては素直に自分を賞賛したい。

一方で、目指すべきレベルにはまだ達していないと思う。英語学習をはじめたときの目標を再掲。

国際カンファレンスで聴講者として英語で質疑応答ができる
国際カンファレンスで発表者として英語で質疑応答ができる
社内の英語話者と仕事に関する議論を電話会議でできる

特に現場で求められてるのは3つ目で、Global の Developer との Communication の密度が全然足りてないと思う。日本だと Slack での議論とか、ランチだとかでふわっとわかっているようなことが足りてないと思うので、ここを次の1年でできるレベルまで引き上げたい。引き上げながらやりたいし、やりながら引き上げたい。

そうやって Global でいろいろ試したことを、日本にも展開するとか、その逆とか、そういう日本オフィスにいる日本語話者で Global Platform を見ているものとしてのバリューも発揮できたらいいなと思う。

継続してやることで、自分が苦手だと思っている「リスニング」について、どう苦手なのかの解像度もあがってきた。

英語の音としては聴こえてくるが、それを意味として自分の脳が理解できていない。まだ脳が訳そうとしているのかもしれない。いわゆる「英語を英語のまま理解する」のスピードが足りない。

これに関する打ち手は2つで、

シャドーイング。おそらく相当の量が必要だと思う。英語のリズムごと叩き込んで、内容を自分が理解している英文をひたすら自分で発して染み込ませていく
語彙。単語、イディオム両方。おそらくこれの絶対量が足りないので、1分中に「？」が複数個あって止まるんだと思う。これが1つ程度だと推測でいけたりするんだと思う

ということで、たぶんこのあたりの量をあげることでどこかでブレイクスルーがくるんじゃないかと思っている。

DMM 英会話については継続。理由は「1年はやるって決めたから」というのもあるが、教材を使っている（フリートークではない）のでインプットにもなっているので。

シャドーイングは Kubernetes Podcast を興味があるテーマに絞ってなんども繰り返し聞いている。おそらくこういうのも最初は時間がかかる類だと思うが、そこで折れずに、1度でダメなら3度、3度でダメなら5度と繰り返しやっていきたい。あとは字幕ありでやったり、音読をしたりと同じテーマでやり方をいろいろ変えてとにかく量をこなしたい。対象は他には Google の SRE 関連の教材や、SRECon の動画も取り入れる。

語彙に関してはこれからだが、iKnow か abceed あたりのアプリを頼りたい。電車内でやるのが良さそう。

学習時間としては、

DMM英会話：自宅、出勤前か帰宅後25分
シャドーイング：通勤徒歩 and 一駅か二駅歩くことで1時間ほど確保
単語：電車で20分

これでもまだ1日2時間満たないので、こまったな。あとは今受けてる Coursera みたいに英語の動画を見て技術学ぶようなのができれば完璧な気がする。字幕見ながら動画見るのを20分追加しようかな。

あとはモチベーションの維持だったり振り返る機会の創出だったり、自分の位置を正しく理解するために、試験の類は定期的に受けていく。

12月に受けたが、TOEIC。しんどいので受けたくはないが、年10回開催なので2回に1回は受ける。

あと英検準一級。

あとは versant を受けてみたいと思いつつ年が明けてしまった。他におすすめのテストの類あったら教えてください。

Output

大きめの仕事をやるたびに会社の Blog を書くのは今後もやっていく。

登壇、来年は数をしぼりつつも、自分がどれだけ仕事をやっていったか、課題を解決したかの指標にもなり、同時にポートフォリオにもなるので、CFPはガンガン出していきたい。

逆に、あんまり無理もしない。準備にはそれ相応のコストがかかる。その時間で仕事の進捗を出した方がいいこともある。

年3、4回ぐらいできればいいかな。数は必要ないので、インパクトが出せそうな場所、タイミングで。

その他

カメラはゆるゆると続けていきたい。

健康はシャドーイングでのもりもりウォーキングでなんとかならないかなって思ってるけどたぶんなんとかならない。休日登山でもするかなって毎年言ってるな。

お金はもう貯められない人種なので年明け帰国後に定期預金申し込みに行きます。

でももうなんかこれでいっぱいいっぱいだな。プライベートの視野がどんどん狭くなっているような。こまったな。

おしまい。

2019-12-21

入社してから1年半

前回

blog.chaspy.me

いつも通りシュッと書く。

この1年を見返すと、「まぁまぁたいていの仕事は1人でできるようになった」「改善や新しい仕組みの導入もできた」「オンボーディングやExperience mapなどチーム視点での取組もできた」でまぁ60点といったところだ。

この状態から半年たった。すごく密度がある半年だったようには思う。

この期間はいくらか大物を倒して、Software Engineer として幾分か成長したように思う。しんどかったのはこいつ。

quipper.hatenablog.com

あとは SLO について、1人でやっていたところからようやくみんなを巻き込みはじめるフェーズになってきて、コツコツやってきたものが実を結び始めているのも嬉しい。

そしてオンボーディングについて、1年間の総集編のようにシメを、ぼちぼちな規模のカンファレンスで話せたのも、成長の一歩だと思う。（社内でも表彰してもらえた）

blog.chaspy.me

コミュニティ活動についても、SRE Lounge, SRE NEXT, terrform-jp といろいろ貢献できた半年だったと思う。

強く思うのが、Developer だけではない、社内のひとたちとの交流が広がって、それが仕事に活きる、という機会が増えてきたこと。これは僕や周囲だけではなく、人事の方々の社内制度によるものの貢献が大きい。ありがたい。

SRE は他職種との Communication が非常に重要だということを、ひしひしと体感している次第だ。具体的に、今は Reliability Engineering をいかに Product Team に伝播させるか、といったところに注力している。組織を見つめて、サービスを見つめて、しっかりひとを知って、それぞれと丁寧にコミュニケーションをしないと簡単にはうまくいかない。（もちろん今でもすごくうまくいってる！というわけではないが、丁寧なコミュニケーションは心がけているつもり。）

もはやパターン化しつつあるが、Product Team が自己完結的に、Reliability を担保する手段として Design Doc, Production Readiness Check, Schedule Scaling, SLO を導入 / 運用してきた。Developer Team のみんなが優秀かつ思いやりのある人たちなので、いたらない点がありつつもなんとかやってこれていて本当に感謝している。

今後は上記をより強化して、Secure で安心してできるような制約は最小限にしつつ、Platform の安定性を高めつつ、Product Team が学習コスト低く Reliability Engineering ができるような世界を作っていくつもりだ。

一方まだ足りないと思っているのが Engineering と English。おいおいマジかよそこメインというか、そこじゃん、お前は。みたいな感じでギャグのような話だが、本当の話である。

Engineering に関しては伸ばし方がさっぱりわからない。1つ1つの課題にちゃんと向き合う、というぼやっとした意識づけぐらいしか浮かんでおらず、具体的なアクションも分かっていない。今どれぐらいで、何を学ぶべきで、何をすべきで、どう活かすべきなのか。

コードで問題を解決すること、といっても広いし。なんらか基礎的なトレーニングをしないと問題が問題として解像度高く見えてこないというのもあるかもしれない。

月に一度は Golang でツールを作る、とかを目標にすればいいのかな。手段と目的感あるけど。

英語に関しては7月からオンライン英会話をはじめて、まぁ9割以上、ほぼ毎日続けている。はじめる前に比べると幾分か語彙は増えたし、喋るハードルも下がったし、楽しんだりつらかったりしながらまぁ続けられるかなという程度には習慣化できたことは大きい。

一方質というか、方法についてはオンライン英会話だけではダメで、現状は流れてくる英語を英語として、意味を認識する部分のトレーニングが必要で、リピーティング、シャドーイングをもっとしないといけないと感じている。これについてはようやく Podcast で Kubernetes Podcast を通勤中聴いてパクパクしている。あとは SRECon の動画なんかも休日に1本見るとかしたい。あとちょうど今日受け始めた SLO に関するトレーニングも動画で英語なので、これもついでに何周かしてシャドーイングの教材にしようと思う。

www.coursera.org

一本道でうまくなんていかないし、うまくいかないことだって、はじめてみないとわからないんだから、大丈夫、ちゃんと進んでいるよ、と自分に声かけて頑張っていきたい。

10月から（チームががっつりわかれたとかではないんだが）主に Global のほうをフォーカスすることになって、仕事上の機会も増えているんだが、英語力がないせいで失っているチャンスは気づいていないだけでたくさんあると思う。それがとても悔しい。

1月にはフィリピンとインドネシアにいくので、みんなとなかよしになってこようと思う。

というわけで次の半年がたつともう2年なんですね。いよいよベテラン感出てきてしまいますね。こまった。

得意な点、Communication や Culture making, Networking なんかは活かしつつも、苦手な点 Engineering, English をより強化して、もりもりバリュー出していきたいと思います。

おわり。