【解消】イベントトラッキング、接客サービスの配信に障害が発生しています。
Incident Report for KARTE
Postmortem

2021年7月5日17時20分頃 〜 18時30分頃にかけて発生した、イベントトラッキングの障害について、下記の通りご報告致します。


発生日時

2021年7月5日17時20分頃 〜 18時30分頃

発生した現象

一部イベントトラッキングの失敗(1日あたりに換算すると、約0.53%に該当します)

一部のアクション配信の失敗(1日あたりに換算すると、約2.06%に該当します)

原因

KARTEのイベントトラッキングを行うサーバに対して、(ブラウザのプログラムによる自動操作が原因と考えられる) 通常の操作では発生しない規則的かつ大量のイベントが短期間の間に送信され、サーバが一時的に過負荷の状態になってしまっていました。

対応

障害を検知して、問題の切り分けとサーバの増強処理を並行して実施しました。

サーバの増強処理により、過負荷の状態は解消され、その後、 正常にイベントトラッキングとアクション配信を行えるようになりました。KARTEのイベントトラッキングでは、短期間に大量のイベントが送信された場合、

自動的に問題を検知し、切り分け処理を行う機能が備わっていますが、今回の一部の特殊なイベントの発生パターンでは、自動切り分けの処理が 適切に動作しないことが分かったため、恒久対応としてプログラムの改善を予定しています。


この度はご迷惑をおかけしてしまい、誠に申し訳ございませんでした。

Posted Jul 06, 2021 - 11:13 JST

Resolved
発生していたイベントトラッキングの障害が復旧致しました。
この度はご迷惑をおかけいたしました。

本障害の原因や対応の詳細については、追って記載させていただきます。
Posted Jul 05, 2021 - 19:55 JST
Update
発生していたイベントトラッキングの障害が復旧致しました。
この度はご迷惑をおかけいたしました。

本障害の原因や対応の詳細については、追って記載させていただきます。
Posted Jul 05, 2021 - 19:54 JST
Monitoring
イベントトラッキング・接客の配信にて障害が発生しておりましたが、障害が暫定復旧し、現在監視中でございます。
詳細は後ほどご連絡致します。
Posted Jul 05, 2021 - 18:43 JST
Investigating
イベントトラッキングで障害が発生してます。
一部のユーザーについて、接客サービス配信に失敗するケースが一時的に増えています。

事象を確認の上、現在、開発チームが原因の調査を行っています。
Posted Jul 05, 2021 - 18:10 JST
This incident affected: イベントトラッキング, 接客の配信, and チャット.