seaweedfs/test/multi_master/failover_test.go


								package multi_master


								import (

									"testing"

									"time"


									"github.com/seaweedfs/seaweedfs/weed/pb"

								)


								const (

									// Election timeout is 3s in our cluster config; allow generous margin.

									leaderElectionTimeout = 20 * time.Second

								)


								// TestLeaderDownAndRecoverQuickly verifies that when the leader is stopped and

								// restarted quickly, the cluster re-elects a leader and the restarted node

								// rejoins as a follower. TopologyId must be consistent across all nodes.

								func TestLeaderDownAndRecoverQuickly(t *testing.T) {

									mc := StartMasterCluster(t)


									// Record initial state.

									leaderIdx, leaderAddr := mc.FindLeader()

									if leaderIdx < 0 {

										t.Fatal("no leader found after cluster start")

									}

									t.Logf("initial leader: node %d at %s", leaderIdx, leaderAddr)


									topologyId, err := mc.GetTopologyId(leaderIdx)

									if err != nil || topologyId == "" {

										t.Fatalf("failed to get initial TopologyId: %v", err)

									}

									t.Logf("initial TopologyId: %s", topologyId)


									// Stop the leader.

									mc.StopNode(leaderIdx)

									t.Logf("stopped leader node %d", leaderIdx)


									// Wait for a new leader from the remaining 2 nodes.

									newLeaderIdx, newLeaderAddr, err := mc.WaitForNewLeader(leaderAddr, leaderElectionTimeout)

									if err != nil {

										mc.DumpLogs()

										t.Fatalf("new leader not elected after stopping old leader: %v", err)

									}

									t.Logf("new leader: node %d at %s", newLeaderIdx, newLeaderAddr)


									// Restart the old leader quickly.

									mc.StartNode(leaderIdx)

									if err := mc.WaitForNodeReady(leaderIdx, waitTimeout); err != nil {

										mc.DumpLogs()

										t.Fatalf("restarted node %d not ready: %v", leaderIdx, err)

									}

									t.Logf("restarted node %d", leaderIdx)


									// Give raft time to settle.

									time.Sleep(3 * time.Second)


									// Verify leader is stable.

									finalLeaderIdx, _ := mc.FindLeader()

									if finalLeaderIdx < 0 {

										mc.DumpLogs()

										t.Fatal("no leader after restarting old leader node")

									}


									// Verify TopologyId is consistent across all nodes.

									assertTopologyIdConsistent(t, mc, topologyId)

								}


								// TestLeaderDownSlowRecover verifies that when the leader goes down and takes

								// a long time to come back, the remaining 2 nodes elect a new leader and the

								// cluster continues to function. When the slow node returns, it rejoins.

								func TestLeaderDownSlowRecover(t *testing.T) {

									mc := StartMasterCluster(t)


									leaderIdx, leaderAddr := mc.FindLeader()

									if leaderIdx < 0 {

										t.Fatal("no leader found")

									}

									topologyId, err := mc.GetTopologyId(leaderIdx)

									if err != nil || topologyId == "" {

										t.Fatalf("failed to get initial TopologyId: %v", err)

									}

									t.Logf("initial leader: node %d, TopologyId: %s", leaderIdx, topologyId)


									// Stop the leader.

									mc.StopNode(leaderIdx)


									// Wait for a new leader.

									newLeaderIdx, _, err := mc.WaitForNewLeader(leaderAddr, leaderElectionTimeout)

									if err != nil {

										mc.DumpLogs()

										t.Fatalf("new leader not elected: %v", err)

									}

									t.Logf("new leader: node %d", newLeaderIdx)


									// Verify cluster functions with only 2 nodes (quorum is 2/3).

									cs, err := mc.GetClusterStatus(newLeaderIdx)

									if err != nil {

										mc.DumpLogs()

										t.Fatalf("cannot get cluster status from new leader: %v", err)

									}

									if !cs.IsLeader {

										t.Fatalf("node %d claims not to be leader", newLeaderIdx)

									}


									// Simulate slow recovery: wait significantly longer than election timeout.

									t.Log("simulating slow recovery (10 seconds)...")

									time.Sleep(10 * time.Second)


									// Verify leader is still stable during the outage.

									stableLeaderIdx, _ := mc.FindLeader()

									if stableLeaderIdx < 0 {

										mc.DumpLogs()

										t.Fatal("leader lost during extended outage of one node")

									}


									// Restart the downed node.

									mc.StartNode(leaderIdx)

									if err := mc.WaitForNodeReady(leaderIdx, waitTimeout); err != nil {

										mc.DumpLogs()

										t.Fatalf("slow-recovered node %d not ready: %v", leaderIdx, err)

									}


									time.Sleep(3 * time.Second)

									assertTopologyIdConsistent(t, mc, topologyId)

								}


								// TestTwoMastersDownAndRestart verifies that when 2 of 3 masters go down

								// (losing quorum), the cluster cannot elect a leader. When both restart,

								// a leader is elected and TopologyId is preserved.

								func TestTwoMastersDownAndRestart(t *testing.T) {

									mc := StartMasterCluster(t)


									leaderIdx, _ := mc.FindLeader()

									if leaderIdx < 0 {

										t.Fatal("no leader found")

									}

									topologyId, err := mc.GetTopologyId(leaderIdx)

									if err != nil || topologyId == "" {

										t.Fatalf("failed to get initial TopologyId: %v", err)

									}

									t.Logf("initial TopologyId: %s", topologyId)


									// Determine which 2 nodes to stop (stop the leader + one follower).

									down1 := leaderIdx

									down2 := (leaderIdx + 1) % 3

									survivor := (leaderIdx + 2) % 3

									t.Logf("stopping nodes %d and %d, keeping node %d", down1, down2, survivor)


									mc.StopNode(down1)

									mc.StopNode(down2)


									// The surviving node alone cannot form a quorum — no leader expected.

									// Wait long enough for any stale leadership to expire (election timeout

									// is 3s in our config, quorum check fires every election timeout).

									time.Sleep(5 * time.Second)

									soloLeaderIdx, _ := mc.FindLeader()

									if soloLeaderIdx >= 0 {

										// It's possible the survivor briefly thinks it's leader before stepping down.

										// Give it time to realize it lost quorum.

										time.Sleep(5 * time.Second)

										soloLeaderIdx, _ = mc.FindLeader()

									}

									if soloLeaderIdx >= 0 {

										mc.DumpLogs()

										t.Fatalf("expected no leader with only 1 of 3 nodes, but node %d claims leadership", soloLeaderIdx)

									}


									// Restart both downed nodes.

									mc.StartNode(down1)

									mc.StartNode(down2)

									for _, i := range []int{down1, down2} {

										if err := mc.WaitForNodeReady(i, waitTimeout); err != nil {

											mc.DumpLogs()

											t.Fatalf("restarted node %d not ready: %v", i, err)

										}

									}


									// Wait for leader election.

									if err := mc.WaitForLeader(leaderElectionTimeout); err != nil {

										mc.DumpLogs()

										t.Fatalf("no leader after restarting 2 downed nodes: %v", err)

									}


									time.Sleep(3 * time.Second)

									assertTopologyIdConsistent(t, mc, topologyId)

								}


								// TestAllMastersDownAndRestart verifies that when all 3 masters are stopped

								// and restarted, the cluster elects a leader and all nodes agree on a

								// TopologyId. With RaftResumeState=false (default), raft state is cleared on

								// restart. The TopologyId is recovered from snapshots when available; on a

								// short-lived cluster that hasn't taken snapshots on all nodes, a new

								// TopologyId may be generated — but all nodes must still agree.

								func TestAllMastersDownAndRestart(t *testing.T) {

									mc := StartMasterCluster(t)


									leaderIdx, _ := mc.FindLeader()

									if leaderIdx < 0 {

										t.Fatal("no leader found")

									}

									topologyId, _ := mc.GetTopologyId(leaderIdx)

									if topologyId == "" {

										t.Fatal("no TopologyId on initial leader")

									}

									t.Logf("initial TopologyId: %s", topologyId)


									// Stop all nodes.

									for i := range 3 {

										mc.StopNode(i)

									}

									t.Log("all nodes stopped")


									time.Sleep(2 * time.Second)


									// Restart all nodes.

									for i := range 3 {

										mc.StartNode(i)

									}

									for i := range 3 {

										if err := mc.WaitForNodeReady(i, waitTimeout); err != nil {

											mc.DumpLogs()

											t.Fatalf("node %d not ready after full restart: %v", i, err)

										}

									}


									// Wait for leader.

									if err := mc.WaitForLeader(leaderElectionTimeout); err != nil {

										mc.DumpLogs()

										t.Fatalf("no leader after full cluster restart: %v", err)

									}


									newLeaderIdx, _ := mc.FindLeader()

									t.Logf("leader after full restart: node %d", newLeaderIdx)


									time.Sleep(3 * time.Second)


									// All nodes must agree on a TopologyId (may differ from original if

									// snapshots were not yet taken on all nodes before shutdown).

									newTopologyId, err := mc.GetTopologyId(newLeaderIdx)

									if err != nil || newTopologyId == "" {

										mc.DumpLogs()

										t.Fatal("no TopologyId after full restart")

									}

									if newTopologyId == topologyId {

										t.Logf("TopologyId preserved across full restart: %s", topologyId)

									} else {

										t.Logf("TopologyId changed (expected for short-lived cluster without snapshots): %s -> %s", topologyId, newTopologyId)

									}

									assertTopologyIdConsistent(t, mc, newTopologyId)

								}


								// TestLeaderConsistencyAcrossNodes verifies that all nodes agree on who the

								// leader is and report the same TopologyId.

								func TestLeaderConsistencyAcrossNodes(t *testing.T) {

									mc := StartMasterCluster(t)


									// Allow cluster to stabilize.

									time.Sleep(3 * time.Second)


									leaderIdx, leaderAddr := mc.FindLeader()

									if leaderIdx < 0 {

										t.Fatal("no leader found")

									}

									t.Logf("leader: node %d at %s", leaderIdx, leaderAddr)


									// Every node should agree on the leader.

									for i := range 3 {

										cs, err := mc.GetClusterStatus(i)

										if err != nil {

											t.Fatalf("node %d cluster/status error: %v", i, err)

										}

										if i == leaderIdx {

											if !cs.IsLeader {

												t.Errorf("node %d should be leader but IsLeader=false", i)

											}

										} else {

											if cs.IsLeader {

												t.Errorf("node %d should not be leader but IsLeader=true", i)

											}

											// cs.Leader is a ServerAddress like "127.0.0.1:10000.20000";

											// convert to HTTP address for comparison with leaderAddr.

											leaderHttp := pb.ServerAddress(cs.Leader).ToHttpAddress()

											if leaderHttp != leaderAddr {

												t.Errorf("node %d reports leader %q (http: %s), expected %q", i, cs.Leader, leaderHttp, leaderAddr)

											}

										}

									}


									// All nodes should have the same TopologyId.

									topologyId, _ := mc.GetTopologyId(leaderIdx)

									if topologyId == "" {

										t.Fatal("leader has no TopologyId")

									}

									assertTopologyIdConsistent(t, mc, topologyId)

								}


								// assertTopologyIdConsistent verifies that all running nodes report the expected TopologyId.

								func assertTopologyIdConsistent(t *testing.T, mc *MasterCluster, expectedId string) {

									t.Helper()

									for i := range 3 {

										if !mc.IsNodeRunning(i) {

											continue

										}

										id, err := mc.GetTopologyId(i)

										if err != nil {

											t.Errorf("node %d: failed to get TopologyId: %v", i, err)

											continue

										}

										if id != expectedId {

											t.Errorf("node %d: TopologyId=%q, expected %q", i, id, expectedId)

										}

									}

								}