MyArena/BucketManager.py


								import json

								from typing import List, Optional, Generator, Dict, Tuple

								from collections import defaultdict, Counter

								from pathlib import Path

								import shutil

								import math

								from MyDataset import MyDataset


								class BucketManager:

								    def __init__(

								        self,

								        cache_path: str,

								        min_samples: int = 1024,

								        max_samples: int = 524288,

								        num_cuts: int = 16,

								        processed_data: Optional[List[dict]] = None,

								        force_rebuild: bool = False,

								    ):

								        self._validate_init_params(cache_path, processed_data, force_rebuild)


								        self.cache_path = Path(cache_path)

								        self.num_cuts = num_cuts

								        self.min_samples = min_samples

								        self.max_samples = max_samples


								        self.buckets = defaultdict(lambda: defaultdict(list))

								        self.valid_buckets = []

								        self.total_samples = 0

								        self.src_buckets = []

								        self.tgt_buckets = []


								        self.total_original_samples = 0

								        self.discarded_samples = 0

								        self.total_padding = 0

								        self.total_actual_tokens = 0


								        if processed_data is not None:

								            if not force_rebuild and self._metadata_exists():

								                self._load_from_metadata()

								            else:

								                if force_rebuild and self.cache_path.exists():

								                    shutil.rmtree(self.cache_path)

								                self.cache_path.mkdir(parents=True, exist_ok=True)

								                self._process_data_with_dp(processed_data)

								                self._save_metadata()

								        else:

								            if not self._metadata_exists():

								                raise FileNotFoundError(f"No cache found at {cache_path}")

								            self._load_from_metadata()


								    def _validate_init_params(

								        self,

								        cache_path: str,

								        processed_data: Optional[List[dict]],

								        force_rebuild: bool

								    ):

								        if not cache_path:

								            raise ValueError("cache_path cannot be empty")


								        if processed_data is None and not force_rebuild and not Path(cache_path).exists():

								            raise FileNotFoundError(f"Cache path missing: {cache_path}")


								    @staticmethod

								    def _optimal_1d_partition(lengths: List[int], num_cuts: int) -> List[Tuple[int, int]]:

								        if not lengths:

								            return []


								        length_counts = Counter(lengths)

								        unique_lengths = sorted(length_counts.keys())


								        if len(unique_lengths) <= num_cuts:

								            buckets = []

								            for i, length in enumerate(unique_lengths):

								                start = length

								                end = unique_lengths[i + 1] if i + 1 < len(unique_lengths) else length + 1

								                buckets.append((start, end))

								            return buckets


								        n = len(unique_lengths)


								        dp = [[float('inf')] * (num_cuts + 1) for _ in range(n + 1)]

								        parent = [[-1] * (num_cuts + 1) for _ in range(n + 1)]


								        dp[0][0] = 0


								        for i in range(1, n + 1):

								            for j in range(1, min(i + 1, num_cuts + 1)):

								                for k in range(j - 1, i):

								                    if dp[k][j - 1] == float('inf'):

								                        continue


								                    bucket_start = unique_lengths[k]

								                    bucket_end = unique_lengths[i - 1] + 1

								                    bucket_max = unique_lengths[i - 1]


								                    padding_in_bucket = 0

								                    for idx in range(k, i):

								                        length = unique_lengths[idx]

								                        count = length_counts[length]

								                        padding_in_bucket += (bucket_max - length) * count


								                    total_padding = dp[k][j - 1] + padding_in_bucket


								                    if total_padding < dp[i][j]:

								                        dp[i][j] = total_padding

								                        parent[i][j] = k


								        if dp[n][num_cuts] == float('inf'):

								            return [(min(lengths), max(lengths) + 1)]


								        buckets = []

								        i, j = n, num_cuts


								        while j > 0 and i > 0:

								            k = parent[i][j]

								            if k < 0 or k >= i:

								                break

								            bucket_start = unique_lengths[k]

								            bucket_end = unique_lengths[i - 1] + 1

								            buckets.append((bucket_start, bucket_end))

								            i, j = k, j - 1


								        buckets.reverse()

								        return buckets


								    def _create_2d_buckets(

								        self,

								        data: List[Tuple[int, int]]

								    ) -> List[Tuple[Tuple[int, int], Tuple[int, int]]]:

								        if not data:

								            return []


								        src_lengths = [item[0] for item in data]

								        tgt_lengths = [item[1] for item in data]


								        print("Calculating optimal buckets for src lengths...")

								        self.src_buckets = self._optimal_1d_partition(src_lengths, self.num_cuts)

								        print(f"src buckets: {self.src_buckets}")


								        print("Calculating optimal buckets for tgt lengths...")

								        self.tgt_buckets = self._optimal_1d_partition(tgt_lengths, self.num_cuts)

								        print(f"tgt buckets: {self.tgt_buckets}")


								        bucket_samples = {}

								        for src_bucket in self.src_buckets:

								            for tgt_bucket in self.tgt_buckets:

								                bucket_key = (src_bucket, tgt_bucket)

								                bucket_samples[bucket_key] = []


								        for src_len, tgt_len in data:

								            src_bucket = None

								            tgt_bucket = None


								            for bucket in self.src_buckets:

								                if bucket[0] <= src_len < bucket[1]:

								                    src_bucket = bucket

								                    break


								            for bucket in self.tgt_buckets:

								                if bucket[0] <= tgt_len < bucket[1]:

								                    tgt_bucket = bucket

								                    break


								            if src_bucket and tgt_bucket:

								                bucket_key = (src_bucket, tgt_bucket)

								                bucket_samples[bucket_key].append((src_len, tgt_len))


								        valid_buckets = []


								        for bucket_key, samples in bucket_samples.items():

								            if len(samples) >= self.min_samples:

								                valid_buckets.append(bucket_key)


								        return valid_buckets


								    def _process_data_with_dp(self, data: List[dict]):

								        length_pairs = [(len(item["src"]), len(item["tgt"])) for item in data]

								        self.total_original_samples = len(data)


								        valid_buckets = self._create_2d_buckets(length_pairs)


								        bucket_data = {bucket: [] for bucket in valid_buckets}


								        total_actual_tokens = 0

								        total_padding = 0

								        used_samples = 0


								        for item in data:

								            src_len = len(item["src"])

								            tgt_len = len(item["tgt"])

								            found_bucket = False


								            for (src_start, src_end), (tgt_start, tgt_end) in valid_buckets:

								                if src_start <= src_len < src_end and tgt_start <= tgt_len < tgt_end:

								                    src_max = src_end - 1

								                    tgt_max = tgt_end - 1

								                    src_pad = src_max - src_len

								                    tgt_pad = tgt_max - tgt_len


								                    total_padding += src_pad + tgt_pad

								                    total_actual_tokens += src_len + tgt_len

								                    used_samples += 1


								                    bucket_data[(src_start, src_end), (tgt_start, tgt_end)].append(item)

								                    found_bucket = True

								                    break


								            if not found_bucket:

								                pass


								        self.discarded_samples = len(data) - used_samples

								        self.total_padding = total_padding

								        self.total_actual_tokens = total_actual_tokens


								        print("\nBuilding datasets from buckets...")

								        total_samples = 0

								        self.valid_buckets = []


								        sorted_buckets = sorted(valid_buckets, key=lambda x: (x[1][0], x[0][0]))


								        for bucket_key in sorted_buckets:

								            (src_start, src_end), (tgt_start, tgt_end) = bucket_key

								            bucket_items = bucket_data[bucket_key]

								            data_len = len(bucket_items)


								            base_num_shards = max(1, (data_len + self.max_samples - 1) // self.max_samples)


								            last_shard_size = data_len % self.max_samples


								            if last_shard_size == 0 and data_len > 0:

								                last_shard_size = self.max_samples


								            if base_num_shards > 1 and last_shard_size <= self.max_samples * 0.5:

								                num_shards = base_num_shards - 1

								            else:

								                num_shards = base_num_shards


								            for shard_idx in range(num_shards):

								                if shard_idx == num_shards - 1:

								                    start_idx = shard_idx * self.max_samples

								                    end_idx = data_len

								                else:

								                    start_idx = shard_idx * self.max_samples

								                    end_idx = start_idx + self.max_samples


								                shard_data = bucket_items[start_idx:end_idx]

								                shard_size = len(shard_data)


								                MyDataset(

								                    cache_path=str(self.cache_path),

								                    processed_data=shard_data,

								                    src_range=(src_start, src_end),

								                    tgt_range=(tgt_start, tgt_end),

								                    shard_idx=shard_idx,

								                )


								                bucket_info = {

								                    "src_range": (src_start, src_end),

								                    "tgt_range": (tgt_start, tgt_end),

								                    "shard_idx": shard_idx,

								                    "num_shards": num_shards,

								                    "suggested_batch_size": 0,

								                    "num_samples": shard_size

								                }

								                self.valid_buckets.append(bucket_info)

								                total_samples += shard_size

								        self.total_samples = total_samples

								        print(f"Valid buckets: {len(self.valid_buckets)}")

								        print(f"Total samples: {total_samples}")


								    def _save_metadata(self):

								        meta = {

								            "num_cuts": self.num_cuts,

								            "valid_buckets": [{

								                "src_range": list(b["src_range"]),

								                "tgt_range": list(b["tgt_range"]),

								                "shard_idx": b["shard_idx"],

								                "num_shards": b["num_shards"],

								                "suggested_batch_size": b["suggested_batch_size"],

								                "num_samples": b["num_samples"]

								            } for b in self.valid_buckets],

								            "min_samples": self.min_samples,

								            "max_samples": self.max_samples,

								            "total_samples": self.total_samples,

								            "total_original_samples": self.total_original_samples,

								            "discarded_samples": self.discarded_samples,

								            "total_padding": self.total_padding,

								            "total_actual_tokens": self.total_actual_tokens

								        }


								        meta_path = self.cache_path / "buckets_meta.json"

								        meta_path.write_text(json.dumps(meta, indent=2))

								        print(f"Metadata saved to {meta_path}")


								    def _load_from_metadata(self):

								        meta_path = self.cache_path / "buckets_meta.json"

								        meta = json.loads(meta_path.read_text())


								        self.num_cuts = meta.get("num_cuts", 8)

								        self.min_samples = meta.get("min_samples", self.min_samples)

								        self.max_samples = meta.get("max_samples", self.max_samples)

								        self.total_samples = meta.get("total_samples", 0)


								        self.total_original_samples = meta.get("total_original_samples", 0)

								        self.discarded_samples = meta.get("discarded_samples", 0)

								        self.total_padding = meta.get("total_padding", 0)

								        self.total_actual_tokens = meta.get("total_actual_tokens", 0)


								        self.valid_buckets = []

								        for b in meta["valid_buckets"]:

								            self.valid_buckets.append({

								                "src_range": tuple(b["src_range"]),

								                "tgt_range": tuple(b["tgt_range"]),

								                "shard_idx": b["shard_idx"],

								                "num_shards": b["num_shards"],

								                "suggested_batch_size": b.get("suggested_batch_size", 0),

								                "num_samples": b["num_samples"]

								            })


								        print(f"Loaded {len(self.valid_buckets)} buckets from {meta_path}")


								    def _metadata_exists(self) -> bool:

								        return (self.cache_path / "buckets_meta.json").exists()


								    def __iter__(self) -> Generator[Dict, None, None]:

								        yield from self.valid_buckets


								    def __len__(self) -> int:

								        return len(self.valid_buckets)


								    def __getitem__(self, index: int) -> dict:

								        return self.valid_buckets[index]


								    def reset_batch_size(self) -> None:

								        for b in self.valid_buckets:

								            b["suggested_batch_size"] = 0


								    def find_optimal_batch_size(self, find_batch_size_func) -> None:

								        bucket_type_map = {}

								        for i, bucket in enumerate(self.valid_buckets):

								            src_range = bucket["src_range"]

								            tgt_range = bucket["tgt_range"]

								            bucket_type = (src_range, tgt_range)


								            if bucket_type in bucket_type_map:

								                bucket["suggested_batch_size"] = bucket_type_map[bucket_type]

								                print(f"Bucket {i + 1}/{len(self.valid_buckets)} reused batch size: {bucket['suggested_batch_size']}\n")

								                continue


								            print(

								                f"Searching optimal batch size for bucket {i + 1}/{len(self.valid_buckets)} " + \

								                f"src: {src_range} tgt: {tgt_range} ..."

								            )


								            batch_size = find_batch_size_func(src_max=src_range[1], tgt_max=tgt_range[1])

								            bucket["suggested_batch_size"] = batch_size

								            bucket_type_map[bucket_type] = bucket["suggested_batch_size"]


								            print(f"Found batch size: {bucket['suggested_batch_size']}\n")


								        self._save_metadata()


								    def found_optimal(self) -> bool:

								        return all(b["suggested_batch_size"] > 0 for b in self.valid_buckets)


								    def get_total_iterations(self, safety_factor: float, drop_last: bool = False) -> int:

								        total_iterations = 0


								        for bucket in self.valid_buckets:

								            batch_size = math.floor(bucket["suggested_batch_size"] * safety_factor)

								            num_samples = bucket["num_samples"]


								            if batch_size <= 0:

								                raise ValueError("Batch size must be positive. Call find_optimal_batch_size first.")


								            if drop_last:

								                iterations = num_samples // batch_size

								            else:

								                iterations = (num_samples + batch_size - 1) // batch_size


								            total_iterations += iterations


								        return total_iterations


								    def get_info(self) -> List[dict]:

								        return self.valid_buckets


								    def print_stats(self):

								        print("\n" + "=" * 60)

								        print("Bucket Statistics")

								        print("=" * 60)

								        print(f"Total buckets: {len(self.valid_buckets)}")

								        print(f"Total samples: {self.total_samples}")

								        print(f"Min samples per bucket: {self.min_samples}")

								        print(f"Max samples per bucket: {self.max_samples}")


								        print("\nData Distribution:")

								        print("-" * 60)

								        print(f"Original samples: {self.total_original_samples}")

								        print(f"Discarded samples: {self.discarded_samples} ({self.discarded_samples / self.total_original_samples * 100:.2f}%)")


								        total_tokens_with_padding = self.total_actual_tokens + self.total_padding

								        if total_tokens_with_padding > 0:

								            padding_rate = self.total_padding / total_tokens_with_padding

								        else:

								            padding_rate = 0.0

								        print(f"Total padding tokens: {self.total_padding}")

								        print(f"Padding rate: {padding_rate * 100:.2f}%")


								        print("\nBucket Details:")

								        print("-" * 80)

								        print(f"{'Bucket ID':<8} {'Src Range':<15} {'Tgt Range':<15} {'Samples':<10} {'Shards':<8} {'Batch Size':<10}")

								        print("-" * 80)


								        for i, bucket in enumerate(self.valid_buckets):

								            src_range = f"{bucket['src_range'][0]}-{bucket['src_range'][1] - 1}"

								            tgt_range = f"{bucket['tgt_range'][0]}-{bucket['tgt_range'][1] - 1}"

								            samples = bucket['num_samples']

								            shards = f"{bucket['shard_idx'] + 1}/{bucket['num_shards']}"

								            batch_size = bucket['suggested_batch_size']


								            print(f"{i:<8} {src_range:<15} {tgt_range:<15} {samples:<10} {shards:<8} {batch_size:<10}")