Spaces:

satyaki-mitra
/

Text_Authenticator

Running

App Files Files Community

Text_Authenticator / config /constants.py

satyaki-mitra

Evaluation added

4466506 4 months ago

raw

history blame contribute delete

60.5 kB

	# DEPENDENCIES
	from typing import Dict
	from typing import List
	from typing import Tuple
	from dataclasses import field
	from config.enums import Script
	from dataclasses import dataclass


	@dataclass(frozen = True)
	class DocumentExtractionParams:
	"""
	Hyperparameters for Document Extraction
	"""
	# Supported file extensions
	SUPPORTED_EXTENSIONS : frozenset = frozenset({'.txt', '.text', '.md', '.markdown', '.log', '.csv', '.pdf', '.docx', '.doc', '.rtf', '.html', '.htm'})

	# Text file extensions
	TEXT_EXTENSIONS : frozenset = frozenset({'.txt', '.text', '.md', '.markdown', '.log', '.csv'})

	# Maximum file size (50 MB default)
	MAX_FILE_SIZE : int = 50 * 1024 * 1024



	@dataclass(frozen = True)
	class LanguageDetectionParams:
	"""
	Hyperparameters for Language Detection
	"""
	# Text length constraints
	MINIMUM_TEXT_LENGTH : int = 20

	# Chunking parameters
	MAX_CHUNK_LENGTH : int = 500
	MIN_CHUNK_LENGTH : int = 50
	FIXED_CHUNK_SIZE : int = 1000

	# Model parameters
	MODEL_MAX_LENGTH : int = 512
	TOP_K_PREDICTIONS : int = 3

	# Confidence thresholds
	LOW_CONFIDENCE_THRESHOLD : float = 0.6
	MULTILINGUAL_THRESHOLD : float = 0.2
	SCRIPT_DOMINANCE_THRESHOLD : float = 0.7
	LANGUAGE_MATCH_THRESHOLD : float = 0.7

	# Quality assessment
	WORD_BOUNDARY_RATIO : float = 0.7
	MIXED_DOMAIN_CONFIDENCE_PENALTY : float = 0.8

	# Language name mappings
	LANGUAGE_NAMES : Dict[str, str] = field(default_factory = lambda : {"en": "English",
	"es": "Spanish",
	"fr": "French",
	"de": "German",
	"it": "Italian",
	"pt": "Portuguese",
	"ru": "Russian",
	"zh": "Chinese",
	"ja": "Japanese",
	"ko": "Korean",
	"ar": "Arabic",
	"hi": "Hindi",
	}
	)

	# Unicode script ranges
	SCRIPT_RANGES : Dict[str, List[Tuple[int, int]]] = field(default_factory = lambda: {"latin" : [(0x0041, 0x007A), (0x00C0, 0x024F)],
	"cyrillic" : [(0x0400, 0x04FF)],
	"arabic" : [(0x0600, 0x06FF), (0x0750, 0x077F)],
	"chinese" : [(0x4E00, 0x9FFF), (0x3400, 0x4DBF)],
	"japanese" : [(0x3040, 0x309F), (0x30A0, 0x30FF)],
	"korean" : [(0xAC00, 0xD7AF), (0x1100, 0x11FF)],
	"devanagari" : [(0x0900, 0x097F)],
	"greek" : [(0x0370, 0x03FF)],
	"hebrew" : [(0x0590, 0x05FF)],
	"thai" : [(0x0E00, 0x0E7F)],
	}
	)




	@dataclass(frozen = True)
	class TextProcessingParams:
	"""
	Hyperparameters for Text Processing
	"""
	# Text length constraints
	MINIMUM_TEXT_LENGTH : int = 20
	MAXIMUM_TEXT_LENGTH : int = 1000000 # 1M characters

	# Text cleaning options
	PRESERVE_FORMATTING : bool = False
	REMOVE_URLS : bool = True
	REMOVE_EMAILS : bool = True
	NORMALIZE_UNICODE : bool = True
	FIX_ENCODING : bool = True

	# Validation thresholds
	MINIMUM_WORD_COUNT : int = 10

	# Common abbreviations for sentence splitting
	COMMON_ABBREVIATIONS : list = field(default_factory = lambda: ["Mr.", "Mrs.", "Ms.", "Dr.", "Prof.", "Rev.", "Gen.", "Sen.", "Rep.", "St.", "Ave.", "Blvd.", "Rd.", "Pkwy.", "Co.", "Ltd.", "Inc.", "Corp.",
	"vs.", "etc.", "e.g.", "i.e.", "c.", "ca.", "cf.", "al.", "et al.", "Jan.", "Feb.", "Mar.", "Apr.", "Jun.", "Jul.", "Aug.", "Sep.", "Oct.",
	"Nov.", "Dec.", "Mon.", "Tue.", "Wed.", "Thu.", "Fri.", "Sat.", "Sun.", "kg.", "g.", "mg.", "km.", "m.", "cm.", "mm.", "hr.", "min.", "sec.",
	"vol.", "no.", "p.", "pp.", "ch.", "fig.", "ed.", "trans.", "approx.", "est.", "max.", "min.", "avg.", "std.", "temp.", "pres.", "vol.", "ibid.",
	"op.", "cit.", "loc.", "cf.", "viz.", "sc.", "seq."
	]
	)


	@dataclass(frozen = True)
	class DomainClassificationParams:
	"""
	Hyperparameters for Domain Classification
	"""
	# Classification parameters
	TOP_K_DOMAINS : int = 2
	MIN_CONFIDENCE_THRESHOLD : float = 0.20

	# Absolute Domain Confidence, below which everything will fallback to General Domain
	ABS_DOMAIN_CONFIDENCE_THRESHOLD : float = 0.40

	# Confidence thresholds
	HIGH_CONFIDENCE_THRESHOLD : float = 0.70
	MEDIUM_CONFIDENCE_THRESHOLD : float = 0.40
	LOW_CONFIDENCE_THRESHOLD : float = 0.25
	SECONDARY_DOMAIN_MIN_SCORE : float = 0.15

	# Mixed domain detection
	MIXED_DOMAIN_PRIMARY_MAX : float = 0.70
	MIXED_DOMAIN_SECONDARY_MIN : float = 0.30
	MIXED_DOMAIN_RATIO_THRESHOLD : float = 0.60
	MIXED_DOMAIN_CONFIDENCE_PENALTY : float = 0.80

	# Text preprocessing
	MAX_WORDS_FOR_CLASSIFICATION : int = 1000

	# Domain labels for zero-shot classification
	DOMAIN_LABELS : Dict[str, List[str]] = field(default_factory = lambda : {"academic" : ["academic paper", "research article", "scientific paper", "scholarly writing", "thesis", "dissertation", "academic research"],
	"creative" : ["creative writing", "fiction", "story", "narrative", "poetry", "literary work", "imaginative writing"],
	"ai_ml" : ["artificial intelligence", "machine learning", "neural networks", "data science", "AI research", "deep learning", "AI", "GenAI", "Generative AI", "LLM", "Natural Langauge Processing", "NLP", "Statistics", "Bayesian"],
	"software_dev" : ["software development", "programming", "coding", "software engineering", "web development", "application development"],
	"technical_doc" : ["technical documentation", "user manual", "API documentation", "technical guide", "system documentation"],
	"engineering" : ["engineering document", "technical design", "engineering analysis", "mechanical engineering", "electrical engineering"],
	"science" : ["scientific research", "physics", "chemistry", "biology", "scientific study", "experimental results"],
	"business" : ["business document", "corporate communication", "business report", "professional writing", "executive summary"],
	"journalism" : ["news article", "journalism", "press release", "news report", "media content", "reporting"],
	"social_media" : ["social media post", "casual writing", "online content", "informal text", "social media content"],
	"blog_personal" : ["personal blog", "personal writing", "lifestyle blog", "personal experience", "opinion piece", "diary entry"],
	"legal" : ["legal document", "contract", "legal writing", "law", "legal agreement", "legal analysis"],
	"medical" : ["medical document", "healthcare", "clinical", "medical report", "health information", "medical research"],
	"marketing" : ["marketing content", "advertising", "brand content", "promotional writing", "sales copy", "marketing material"],
	"tutorial" : ["tutorial", "how-to guide", "instructional content", "step-by-step guide", "educational guide", "learning material"],
	"general" : ["general content", "everyday writing", "common text", "standard writing", "normal text", "general information"],
	}
	)


	@dataclass(frozen = True)
	class BaseMetricParams:
	"""
	Hyperparameters for BaseMetric class
	"""
	DEFAULT_AUTHENTIC_PROBABILITY : float = 0.35
	DEFAULT_SYNTHETIC_PROBABILITY : float = 0.35
	DEFAULT_HYBRID_PROBABILITY : float = 0.30
	DEFAULT_CONFIDENCE : float = 0.0


	@dataclass(frozen = True)
	class StructuralMetricParams:
	"""
	Hyperparameters for Structural Metric
	"""
	# DOMAIN THRESHOLD APPLICATION - PROBABILITY CONSTANTS
	STRONG_SYNTHETIC_BASE_PROB : float = 0.65
	STRONG_AUTHENTIC_BASE_PROB : float = 0.7
	WEAK_PROBABILITY_ADJUSTMENT : float = 0.3
	UNCERTAIN_SYNTHETIC_RANGE_START : float = 0.3
	UNCERTAIN_AUTHENTIC_RANGE_START : float = 0.7
	UNCERTAIN_RANGE_WIDTH : float = 0.4
	NEUTRAL_PROBABILITY : float = 0.5
	MIN_PROBABILITY : float = 0.0
	MAX_PROBABILITY : float = 1.0

	# FEATURE EXTRACTION - TEXT PROCESSING PATTERNS
	SENTENCE_SPLIT_PATTERN : str = r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.\|\?\|\!)\s'
	WORD_TOKENIZE_PATTERN : str = r'\b\w+\b'
	PUNCTUATION_PATTERN : str = r'[^\w\s]'

	# BURSTINESS CALCULATION
	# Burstiness = CV / normalization_factor
	# Empirical CV ranges : 0.2-0.8 for most text
	# After /2.0 normalization : 0.1-0.4 typical range
	BURSTINESS_NORMALIZATION_FACTOR : float = 2.0

	# CORRECTED thresholds based on empirical distributions
	BURSTINESS_LOW_THRESHOLD : float = 0.15 # Below = very uniform (synthetic)
	BURSTINESS_MEDIUM_THRESHOLD : float = 0.25 # Below = somewhat uniform
	BURSTINESS_HIGH_THRESHOLD : float = 0.35 # Above = high variation (human/hybrid)

	# READABILITY CALCULATION (Flesch Reading Ease)
	FLESCH_CONSTANT_1 : float = 206.835
	FLESCH_CONSTANT_2 : float = 1.015
	FLESCH_CONSTANT_3 : float = 84.6
	NEUTRAL_READABILITY_SCORE : float = 50.0
	MIN_READABILITY_SCORE : float = 0.0
	MAX_READABILITY_SCORE : float = 100.0

	# Readability thresholds for synthetic detection: Generative models often produce "optimal" readability (60-75)
	READABILITY_SYNTHETIC_MIN : float = 60.0
	READABILITY_SYNTHETIC_MAX : float = 75.0
	READABILITY_EXTREME_LOW : float = 20.0 # Very difficult
	READABILITY_EXTREME_HIGH : float = 90.0 # Very easy

	# REPETITION DETECTION
	REPETITION_WINDOW_SIZE : int = 10
	MIN_WORDS_FOR_REPETITION : int = 10
	REPETITION_LOW_THRESHOLD : float = 0.1
	REPETITION_MEDIUM_THRESHOLD : float = 0.2
	MIN_EXTREME_FEATURES : int = 2

	# N-GRAM ANALYSIS
	BIGRAM_N : int = 2
	TRIGRAM_N : int = 3
	MIN_WORDS_FOR_NGRAM : int = 2

	# N-gram diversity thresholds
	# Lower diversity = more repetitive = potentially synthetic
	BIGRAM_DIVERSITY_LOW_THRESHOLD : float = 0.7
	TRIGRAM_DIVERSITY_LOW_THRESHOLD : float = 0.8

	# LENGTH UNIFORMITY THRESHOLDS
	# Length uniformity = 1 - (std / mean)
	# Higher uniformity = more consistent = potentially synthetic
	LENGTH_UNIFORMITY_HIGH_THRESHOLD : float = 0.7
	LENGTH_UNIFORMITY_MEDIUM_THRESH : float = 0.5

	# SYNTHETIC PROBABILITY WEIGHTS
	STRONG_SYNTHETIC_WEIGHT : float = 0.7
	MODERATE_SYNTHETIC_WEIGHT : float = 0.5
	WEAK_SYNTHETIC_WEIGHT : float = 0.4
	VERY_WEAK_SYNTHETIC_WEIGHT : float = 0.3
	NEUTRAL_WEIGHT : float = 0.5

	# CONFIDENCE CALCULATION
	CONFIDENCE_BASE : float = 0.5 # Base confidence
	CONFIDENCE_STD_FACTOR : float = 0.3 # Weight for agreement between indicators
	CONFIDENCE_SAMPLE_FACTOR : float = 0.2 # Weight for sample size adequacy
	MIN_CONFIDENCE : float = 0.1
	MAX_CONFIDENCE : float = 0.9
	NEUTRAL_CONFIDENCE : float = 0.5

	# Sample size thresholds for confidence
	MIN_SENTENCES_FOR_CONFIDENCE : int = 3 # Minimum sentences for reliable analysis
	MIN_WORDS_FOR_CONFIDENCE : int = 50 # Minimum words for reliable analysis
	CONFIDENCE_STD_NORMALIZER : float = 0.5 # Kept for backward compatibility

	# HYBRID PROBABILITY CALCULATION
	SENTENCE_LENGTH_VARIANCE_RATIO : float = 0.8
	TYPE_TOKEN_RATIO_EXTREME_LOW : float = 0.3
	TYPE_TOKEN_RATIO_EXTREME_HIGH : float = 0.9
	MODERATE_HYBRID_WEIGHT : float = 0.4
	WEAK_HYBRID_WEIGHT : float = 0.3
	MAX_HYBRID_PROBABILITY : float = 0.4

	# FEATURE VALIDATION
	MIN_SENTENCE_LENGTH_FOR_STD : int = 2
	MIN_WORD_LENGTH_FOR_STD : int = 2
	MIN_VALUES_FOR_BURSTINESS : int = 2

	# MATH AND NORMALIZATION
	ZERO_TOLERANCE : float = 1e-10
	ZERO_VALUE : float = 0.0
	ONE_VALUE : float = 1.0


	@dataclass(frozen = True)
	class SemanticAnalysisParams:
	"""
	Hyperparameters for Semantic Analysis Metric
	"""
	# TEXT VALIDATION
	MIN_TEXT_LENGTH_FOR_ANALYSIS : int = 50
	MIN_SENTENCES_FOR_ANALYSIS : int = 3
	MIN_SENTENCE_LENGTH : int = 10
	MIN_VALID_SENTENCE_LENGTH : int = 5

	# DOMAIN THRESHOLD APPLICATION
	STRONG_SYNTHETIC_BASE_PROB : float = 0.7
	STRONG_AUTHENTIC_BASE_PROB : float = 0.7
	WEAK_PROBABILITY_ADJUSTMENT : float = 0.3
	UNCERTAIN_SYNTHETIC_RANGE_START : float = 0.3
	UNCERTAIN_AUTHENTIC_RANGE_START : float = 0.7
	UNCERTAIN_RANGE_WIDTH : float = 0.4
	NEUTRAL_PROBABILITY : float = 0.5
	MIN_PROBABILITY : float = 0.0
	MAX_PROBABILITY : float = 1.0

	# TEXT PROCESSING PATTERNS
	SENTENCE_SPLIT_PATTERN : str = r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.\|\?\|\!)\s'
	WORD_EXTRACTION_PATTERN : str = r'\b[a-zA-Z]{4,}\b'

	# COHERENCE CALCULATION: Coherence = average cosine similarity between adjacent sentences
	# Typical ranges:
	# - Very low (< 0.3) : Incoherent, disconnected
	# - Low (0.3-0.5) : Some connection
	# - Medium (0.5-0.7) : Normal human writing
	# - High (0.7-0.85) : Good flow, well-connected
	# - Very high (> 0.85) : Suspiciously perfect (potentially synthetic)

	SIMILARITY_VARIANCE_FACTOR : float = 5.0 # Scaling factor for consistency calculation

	# COHERENCE THRESHOLDS : These define the "sweet spot" for human writing vs synthetic patterns
	COHERENCE_VERY_LOW_THRESHOLD : float = 0.3
	COHERENCE_LOW_THRESHOLD : float = 0.5
	COHERENCE_MEDIUM_LOW_THRESHOLD : float = 0.65
	COHERENCE_MEDIUM_HIGH_THRESHOLD : float = 0.75
	COHERENCE_HIGH_THRESHOLD : float = 0.85
	COHERENCE_SUSPICIOUS_THRESHOLD : float = 0.9

	# CONSISTENCY THRESHOLDS: Consistency = 1 - variance (lower variance = more consistent)
	CONSISTENCY_HIGH_THRESHOLD : float = 0.8
	CONSISTENCY_MEDIUM_THRESHOLD : float = 0.6
	CONSISTENCY_LOW_THRESHOLD : float = 0.4

	# REPETITION DETECTION
	REPETITION_SIMILARITY_THRESHOLD : float = 0.8
	REPETITION_SCORE_SCALING : float = 3.0
	MIN_SENTENCES_FOR_REPETITION : int = 5

	REPETITION_HIGH_THRESHOLD : float = 0.3
	REPETITION_MEDIUM_THRESHOLD : float = 0.15
	REPETITION_LOW_THRESHOLD : float = 0.05

	# TOPIC DRIFT CALCULATION
	START_SECTION_SIZE : int = 3
	END_SECTION_SIZE : int = 3
	SECTION_SIZE_RATIO : int = 3

	TOPIC_DRIFT_LOW_THRESHOLD : float = 0.2
	TOPIC_DRIFT_MEDIUM_THRESHOLD : float = 0.4
	TOPIC_DRIFT_HIGH_THRESHOLD : float = 0.6

	# COHERENCE VARIANCE THRESHOLDS
	COHERENCE_VARIANCE_VERY_LOW : float = 0.02
	COHERENCE_VARIANCE_LOW_THRESHOLD : float = 0.05
	COHERENCE_VARIANCE_MEDIUM_THRESHOLD : float = 0.1
	COHERENCE_VARIANCE_HIGH_THRESHOLD : float = 0.15

	# CHUNK ANALYSIS
	CHUNK_SIZE_WORDS : int = 200
	CHUNK_OVERLAP_RATIO : float = 0.5
	MIN_CHUNK_LENGTH : int = 50
	MIN_SENTENCES_PER_CHUNK : int = 2

	# KEYWORD ANALYSIS
	MIN_WORDS_FOR_KEYWORD_ANALYSIS : int = 10
	TOP_KEYWORDS_COUNT : int = 10
	MIN_KEYWORD_FREQUENCY : int = 2

	# SYNTHETIC PROBABILITY WEIGHTS
	COHERENCE_SUSPICIOUS_SYNTHETIC_WEIGHT : float = 0.8
	COHERENCE_HIGH_SYNTHETIC_WEIGHT : float = 0.6
	COHERENCE_MEDIUM_SYNTHETIC_WEIGHT : float = 0.4
	COHERENCE_LOW_SYNTHETIC_WEIGHT : float = 0.3
	COHERENCE_INCOHERENT_SYNTHETIC_WEIGHT : float = 0.5

	CONSISTENCY_STRONG_SYNTHETIC_WEIGHT : float = 0.7
	CONSISTENCY_MODERATE_SYNTHETIC_WEIGHT : float = 0.5
	CONSISTENCY_WEAK_SYNTHETIC_WEIGHT : float = 0.3

	REPETITION_HIGH_SYNTHETIC_WEIGHT : float = 0.6
	REPETITION_MEDIUM_SYNTHETIC_WEIGHT : float = 0.4
	REPETITION_LOW_SYNTHETIC_WEIGHT : float = 0.2

	TOPIC_DRIFT_LOW_SYNTHETIC_WEIGHT : float = 0.6
	TOPIC_DRIFT_MEDIUM_SYNTHETIC_WEIGHT : float = 0.4
	TOPIC_DRIFT_HIGH_SYNTHETIC_WEIGHT : float = 0.2

	VARIANCE_LOW_SYNTHETIC_WEIGHT : float = 0.6
	VARIANCE_MEDIUM_SYNTHETIC_WEIGHT : float = 0.4
	VARIANCE_HIGH_SYNTHETIC_WEIGHT : float = 0.2

	# CONFIDENCE CALCULATION
	CONFIDENCE_BASE : float = 0.5 # Base confidence
	CONFIDENCE_STD_FACTOR : float = 0.3 # Weight for agreement between indicators
	CONFIDENCE_SAMPLE_FACTOR : float = 0.2 # Weight for sample size adequacy
	CONFIDENCE_STD_NORMALIZER : float = 0.5 # For backward compatibility
	MIN_CONFIDENCE : float = 0.1
	MAX_CONFIDENCE : float = 0.9
	NEUTRAL_CONFIDENCE : float = 0.5
	LOW_FEATURE_CONFIDENCE : float = 0.3
	MIN_REQUIRED_FEATURES : int = 3

	# Sample size thresholds for confidence
	MIN_SENTENCES_FOR_CONFIDENCE : int = 5 # Minimum sentences for reliable analysis
	MIN_CHUNKS_FOR_CONFIDENCE : int = 3 # Minimum chunks for reliable analysis

	# HYBRID PROBABILITY CALCULATION
	COHERENCE_MIXED_MIN : float = 0.55
	COHERENCE_MIXED_MAX : float = 0.75
	REPETITION_MIXED_MIN : float = 0.15
	REPETITION_MIXED_MAX : float = 0.35

	MODERATE_HYBRID_WEIGHT : float = 0.4
	WEAK_HYBRID_WEIGHT : float = 0.3
	VERY_WEAK_HYBRID_WEIGHT : float = 0.2
	MAX_HYBRID_PROBABILITY : float = 0.4

	# DEFAULT FEATURE VALUES
	DEFAULT_COHERENCE : float = 0.5
	DEFAULT_CONSISTENCY : float = 0.5
	DEFAULT_REPETITION : float = 0.0
	DEFAULT_TOPIC_DRIFT : float = 0.5
	DEFAULT_CONTEXTUAL_CONSISTENCY : float = 0.5
	DEFAULT_CHUNK_COHERENCE : float = 0.5
	DEFAULT_COHERENCE_VARIANCE : float = 0.1

	# MATH AND NORMALIZATION
	ZERO_TOLERANCE : float = 1e-10


	@dataclass(frozen = True)
	class LinguisticMetricParams:
	"""
	Hyperparameters for Linguistic Metric
	"""
	# TEXT VALIDATION
	MIN_TEXT_LENGTH_FOR_ANALYSIS : int = 50

	# DOMAIN THRESHOLD APPLICATION - PROBABILITY CONSTANTS
	STRONG_SYNTHETIC_BASE_PROB : float = 0.7
	STRONG_AUTHENTIC_BASE_PROB : float = 0.7
	WEAK_PROBABILITY_ADJUSTMENT : float = 0.3
	UNCERTAIN_SYNTHETIC_RANGE_START : float = 0.3
	UNCERTAIN_AUTHENTIC_RANGE_START : float = 0.7
	UNCERTAIN_RANGE_WIDTH : float = 0.4
	NEUTRAL_PROBABILITY : float = 0.5
	MIN_PROBABILITY : float = 0.0
	MAX_PROBABILITY : float = 1.0

	# POS ANALYSIS
	MIN_TAGS_FOR_ENTROPY : int = 10

	# POS diversity thresholds (type-token ratio for POS tags): Normal English has diverse POS usage
	POS_DIVERSITY_LOW_THRESHOLD : float = 0.3
	POS_DIVERSITY_MEDIUM_THRESHOLD : float = 0.5
	POS_DIVERSITY_MIXED_MIN : float = 0.35
	POS_DIVERSITY_MIXED_MAX : float = 0.55

	# POS entropy thresholds: typical English POS entropy: 2.5-3.5 bits
	# Theoretical max for 17 POS tags: log2(17) ≈ 4.09 bits
	POS_ENTROPY_LOW_THRESHOLD : float = 2.0
	POS_ENTROPY_MEDIUM_THRESHOLD : float = 2.8
	POS_ENTROPY_HIGH_THRESHOLD : float = 3.5

	# SYNTACTIC COMPLEXITY
	COMPLEXITY_WEIGHT_AVG : float = 0.5 # Weight for average depth
	COMPLEXITY_WEIGHT_MAX : float = 0.5 # Weight for max depth

	# Syntactic complexity thresholds: Based on weighted combination of avg and max dependency depths
	# Typical range: 1.5-4.0
	SYNTACTIC_COMPLEXITY_LOW_THRESHOLD : float = 2.0
	SYNTACTIC_COMPLEXITY_MEDIUM_THRESHOLD : float = 3.0
	SYNTACTIC_COMPLEXITY_HIGH_THRESHOLD : float = 4.0

	# SENTENCE COMPLEXITY
	WORDS_PER_COMPLEXITY_UNIT : float = 10.0
	CLAUSE_COMPLEXITY_FACTOR : float = 0.5
	CLAUSE_MARKERS : tuple = ('cc', 'mark')

	# GRAMMATICAL PATTERNS
	TRANSITION_WORDS_SET : tuple = ('however', 'therefore', 'moreover', 'furthermore', 'consequently', 'additionally', 'nevertheless', 'nonetheless', 'thus', 'hence')
	IDEAL_PASSIVE_RATIO : float = 0.3
	IDEAL_TRANSITION_RATIO : float = 0.2
	PASSIVE_DEPENDENCY : str = 'nsubjpass'

	# Grammatical consistency thresholds
	GRAMMATICAL_CONSISTENCY_HIGH_THRESHOLD : float = 0.8
	GRAMMATICAL_CONSISTENCY_MEDIUM_THRESHOLD : float = 0.6

	# Transition word usage thresholds
	TRANSITION_USAGE_HIGH_THRESHOLD : float = 0.3
	TRANSITION_USAGE_MEDIUM_THRESHOLD : float = 0.15

	# WRITING STYLE ANALYSIS
	IDEAL_LENGTH_VARIATION : float = 0.5
	IDEAL_PUNCTUATION_RATIO : float = 0.1

	# SYNTHETIC PATTERN DETECTION
	TRANSITION_OVERUSE_THRESHOLD : float = 0.05
	POS_SEQUENCE_FREQ_THRESHOLD : float = 0.1
	STRUCTURE_DIVERSITY_THRESHOLD : float = 0.5
	UNUSUAL_CONSTRUCTION_THRESHOLD : float = 0.02
	REPETITIVE_PHRASING_THRESHOLD : float = 0.3
	UNUSUAL_DEPENDENCIES : tuple = ('attr', 'oprd')

	# Synthetic pattern score thresholds
	SYNTHETIC_PATTERN_HIGH_THRESHOLD : float = 0.6
	SYNTHETIC_PATTERN_MEDIUM_THRESHOLD : float = 0.3
	SYNTHETIC_PATTERN_MIXED_MIN : float = 0.2
	SYNTHETIC_PATTERN_MIXED_MAX : float = 0.6

	# CHUNK ANALYSIS
	CHUNK_SIZE_WORDS : int = 200
	CHUNK_OVERLAP_RATIO : float = 0.5
	MIN_CHUNK_LENGTH : int = 50
	MIN_SENTENCES_FOR_STRUCTURE : int = 3
	MIN_SENTENCES_FOR_ANALYSIS : int = 1
	MIN_SENTENCES_FOR_CHUNK_VALIDITY : int = 1

	# Complexity variance thresholds: Variance in syntactic complexity across chunks
	COMPLEXITY_VARIANCE_LOW_THRESHOLD : float = 0.2
	COMPLEXITY_VARIANCE_MEDIUM_THRESHOLD : float = 0.5
	COMPLEXITY_VARIANCE_HIGH_THRESHOLD : float = 0.8

	# SYNTHETIC PROBABILITY WEIGHTS
	STRONG_SYNTHETIC_WEIGHT : float = 0.9
	MODERATE_SYNTHETIC_WEIGHT : float = 0.8
	MEDIUM_SYNTHETIC_WEIGHT : float = 0.7
	WEAK_SYNTHETIC_WEIGHT : float = 0.6
	VERY_WEAK_SYNTHETIC_WEIGHT : float = 0.5
	LOW_SYNTHETIC_WEIGHT : float = 0.4
	VERY_LOW_SYNTHETIC_WEIGHT : float = 0.3
	MINIMAL_SYNTHETIC_WEIGHT : float = 0.2

	# CONFIDENCE CALCULATION
	CONFIDENCE_BASE : float = 0.5 # Base confidence
	CONFIDENCE_STD_FACTOR : float = 0.3 # Weight for agreement between indicators
	CONFIDENCE_SAMPLE_FACTOR : float = 0.2 # Weight for sample size adequacy
	CONFIDENCE_STD_NORMALIZER : float = 0.5 # For backward compatibility
	MIN_CONFIDENCE : float = 0.1
	MAX_CONFIDENCE : float = 0.9
	NEUTRAL_CONFIDENCE : float = 0.5
	LOW_FEATURE_CONFIDENCE : float = 0.3
	MIN_REQUIRED_FEATURES : int = 4

	# Sample size thresholds for confidence
	MIN_SENTENCES_FOR_CONFIDENCE : int = 5 # Minimum sentences for reliable analysis
	MIN_CHUNKS_FOR_CONFIDENCE : int = 2 # Minimum chunks for reliable analysis

	# HYBRID PROBABILITY CALCULATION
	MODERATE_HYBRID_WEIGHT : float = 0.4
	WEAK_HYBRID_WEIGHT : float = 0.3
	MINIMAL_HYBRID_WEIGHT : float = 0.2
	MAX_HYBRID_PROBABILITY : float = 0.4

	# DEFAULT FEATURE VALUES
	DEFAULT_POS_DIVERSITY : float = 0.5
	DEFAULT_POS_ENTROPY : float = 2.5
	DEFAULT_SYNTACTIC_COMPLEXITY : float = 2.5
	DEFAULT_SENTENCE_COMPLEXITY : float = 2.0
	DEFAULT_GRAMMATICAL_CONSISTENCY : float = 0.5
	DEFAULT_TRANSITION_USAGE : float = 0.1
	DEFAULT_PASSIVE_RATIO : float = 0.2
	DEFAULT_WRITING_STYLE_SCORE : float = 0.5
	DEFAULT_SYNTHETIC_PATTERN_SCORE : float = 0.3
	DEFAULT_CHUNK_COMPLEXITY : float = 2.5
	DEFAULT_COMPLEXITY_VARIANCE : float = 0.4

	# MATH AND NORMALIZATION
	LOG_BASE : int = 2
	ZERO_TOLERANCE : float = 1e-10


	@dataclass(frozen = True)
	class PerplexityMetricParams:
	"""
	Hyperparameters for Perplexity Metric
	"""
	# TEXT VALIDATION
	MIN_TEXT_LENGTH_FOR_ANALYSIS : int = 50
	MIN_SENTENCE_LENGTH : int = 20
	MIN_SENTENCE_LENGTH_DIVISOR : int = 2 # For min length checks (MIN_SENTENCE_LENGTH // 2)
	MIN_CHUNK_LENGTH : int = 50
	MIN_CHUNK_SIZE_DIVISOR : int = 2

	# DOMAIN THRESHOLD APPLICATION - PROBABILITY CONSTANTS
	STRONG_SYNTHETIC_BASE_PROB : float = 0.7
	STRONG_AUTHENTIC_BASE_PROB : float = 0.7
	WEAK_PROBABILITY_ADJUSTMENT : float = 0.3
	UNCERTAIN_SYNTHETIC_RANGE_START : float = 0.3
	UNCERTAIN_AUTHENTIC_RANGE_START : float = 0.7
	UNCERTAIN_RANGE_WIDTH : float = 0.4
	NEUTRAL_PROBABILITY : float = 0.5
	MIN_PROBABILITY : float = 0.0
	MAX_PROBABILITY : float = 1.0

	# MODEL PARAMETERS
	MAX_TOKEN_LENGTH : int = 1024
	MIN_TOKENS_FOR_PERPLEXITY : int = 5

	# CHUNK ANALYSIS
	CHUNK_SIZE_WORDS : int = 200
	CHUNK_OVERLAP_RATIO : float = 0.5

	# PERPLEXITY NORMALIZATION (Sigmoid Transformation)
	# normalized = 1 / (1 + exp((perplexity - center) / scale))
	# This maps perplexity values to [0, 1] range
	# Lower perplexity → higher normalized score → more synthetic-like
	PERPLEXITY_SIGMOID_CENTER : float = 40.0 # Midpoint of sigmoid
	PERPLEXITY_SIGMOID_SCALE : float = 20.0 # Controls sigmoid steepness

	# CROSS-ENTROPY NORMALIZATION
	MAX_CROSS_ENTROPY : float = 5.0

	# PERPLEXITY VALUE THRESHOLDS (Actual Perplexity Values)
	# Typical perplexity ranges:
	# - Very low (< 20) : Extremely predictable (likely synthetic)
	# - Low (20-40) : Predictable (potentially synthetic)
	# - Medium (40-80) : Moderate predictability
	# - High (80-150) : Less predictable (likely human)
	# - Very high (> 150) : Highly unpredictable
	PERPLEXITY_VERY_LOW_THRESHOLD : float = 20.0
	PERPLEXITY_LOW_THRESHOLD : float = 40.0
	PERPLEXITY_HIGH_THRESHOLD : float = 80.0
	PERPLEXITY_VERY_HIGH_THRESHOLD : float = 150.0

	# SYNTHETIC PROBABILITY THRESHOLDS (Normalized Values 0-1)
	# After sigmoid normalization:
	# - High normalized perplexity (> 0.7) = low actual perplexity = synthetic
	# - Medium normalized perplexity (0.5-0.7) = uncertain
	# - Low normalized perplexity (< 0.5) = high actual perplexity = authentic
	NORMALIZED_PERPLEXITY_HIGH_THRESHOLD : float = 0.7
	NORMALIZED_PERPLEXITY_MEDIUM_THRESHOLD : float = 0.5

	# Variance thresholds (low variance = consistent = synthetic)
	PERPLEXITY_VARIANCE_LOW_THRESHOLD : float = 50.0
	PERPLEXITY_VARIANCE_MEDIUM_THRESHOLD : float = 200.0
	PERPLEXITY_VARIANCE_HIGH_THRESHOLD : float = 200.0 # For hybrid detection

	# Sentence perplexity standard deviation thresholds
	STD_SENTENCE_PERPLEXITY_LOW_THRESHOLD : float = 20.0
	STD_SENTENCE_PERPLEXITY_MEDIUM_THRESHOLD : float = 50.0
	STD_SENTENCE_PERPLEXITY_MIXED_MIN : float = 20.0
	STD_SENTENCE_PERPLEXITY_MIXED_MAX : float = 60.0

	# Cross-entropy thresholds (lower = more predictable = synthetic)
	CROSS_ENTROPY_LOW_THRESHOLD : float = 0.3
	CROSS_ENTROPY_MEDIUM_THRESHOLD : float = 0.6

	# Chunk variance thresholds
	CHUNK_VARIANCE_VERY_LOW_THRESHOLD : float = 25.0
	CHUNK_VARIANCE_LOW_THRESHOLD : float = 100.0

	# SYNTHETIC PROBABILITY WEIGHTS
	STRONG_SYNTHETIC_WEIGHT : float = 0.8
	MEDIUM_SYNTHETIC_WEIGHT : float = 0.6
	WEAK_SYNTHETIC_WEIGHT : float = 0.4
	VERY_WEAK_SYNTHETIC_WEIGHT : float = 0.2
	VERY_LOW_SYNTHETIC_WEIGHT : float = 0.3
	MINIMAL_SYNTHETIC_WEIGHT : float = 0.2

	# CONFIDENCE CALCULATION
	CONFIDENCE_BASE : float = 0.5 # Base confidence
	CONFIDENCE_STD_FACTOR : float = 0.3 # Weight for agreement between indicators
	CONFIDENCE_SAMPLE_FACTOR : float = 0.2 # Weight for sample size adequacy
	CONFIDENCE_STD_NORMALIZER : float = 0.5 # For backward compatibility
	MIN_CONFIDENCE : float = 0.1
	MAX_CONFIDENCE : float = 0.9
	NEUTRAL_CONFIDENCE : float = 0.5
	LOW_FEATURE_CONFIDENCE : float = 0.3
	MIN_REQUIRED_FEATURES : int = 3

	# Sample size thresholds for confidence
	MIN_SENTENCES_FOR_CONFIDENCE : int = 3 # NEW: Minimum sentences for reliable analysis
	MIN_CHUNKS_FOR_CONFIDENCE : int = 2 # NEW: Minimum chunks for reliable analysis

	# Moderate normalized perplexity suggests mixing
	NORMALIZED_PERPLEXITY_MIXED_MIN : float = 0.4
	NORMALIZED_PERPLEXITY_MIXED_MAX : float = 0.6

	# Hybrid probability weights
	MODERATE_HYBRID_WEIGHT : float = 0.4
	WEAK_HYBRID_WEIGHT : float = 0.2
	MINIMAL_HYBRID_WEIGHT : float = 0.0
	MAX_HYBRID_PROBABILITY : float = 0.4

	# These are used when analysis fails or as fallback values
	DEFAULT_OVERALL_PERPLEXITY : float = 50.0 # Neutral perplexity
	DEFAULT_NORMALIZED_PERPLEXITY : float = 0.5 # Neutral normalized value
	DEFAULT_AVG_SENTENCE_PERPLEXITY : float = 50.0
	DEFAULT_STD_SENTENCE_PERPLEXITY : float = 25.0
	DEFAULT_MIN_SENTENCE_PERPLEXITY : float = 30.0
	DEFAULT_MAX_SENTENCE_PERPLEXITY : float = 70.0
	DEFAULT_PERPLEXITY_VARIANCE : float = 100.0
	DEFAULT_AVG_CHUNK_PERPLEXITY : float = 50.0
	DEFAULT_CROSS_ENTROPY_SCORE : float = 0.5

	# MATH AND NORMALIZATION
	ZERO_TOLERANCE : float = 1e-10
	LARGE_PERPLEXITY_THRESHOLD : float = 1000.0 # Sanity check for unreasonably high values

	# TEXT PROCESSING
	SENTENCE_SPLIT_PATTERN : str = r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.\|\?\|\!)\s'


	@dataclass(frozen = True)
	class EntropyMetricParams:
	"""
	Hyperparameters for Entropy Metric
	"""
	# TEXT VALIDATION
	MIN_TEXT_LENGTH_FOR_ANALYSIS : int = 50
	MIN_SENTENCE_LENGTH : int = 10
	MIN_WORDS_FOR_ANALYSIS : int = 5
	MIN_TOKENS_FOR_ANALYSIS : int = 10
	MIN_TOKENS_FOR_SEQUENCE : int = 20

	# DOMAIN THRESHOLD APPLICATION - PROBABILITY CONSTANTS
	STRONG_SYNTHETIC_BASE_PROB : float = 0.7
	STRONG_AUTHENTIC_BASE_PROB : float = 0.7
	WEAK_PROBABILITY_ADJUSTMENT : float = 0.3
	UNCERTAIN_SYNTHETIC_RANGE_START : float = 0.3
	UNCERTAIN_AUTHENTIC_RANGE_START : float = 0.7
	UNCERTAIN_RANGE_WIDTH : float = 0.4
	NEUTRAL_PROBABILITY : float = 0.5
	MIN_PROBABILITY : float = 0.0
	MAX_PROBABILITY : float = 1.0

	# CHUNK ANALYSIS
	CHUNK_SIZE_WORDS : int = 100
	CHUNK_OVERLAP_RATIO : float = 0.5
	MIN_CHUNK_LENGTH : int = 20

	# SEQUENCE ANALYSIS
	# Maximum theoretical bigram entropy for GPT-2 tokenizer (50257 tokens)
	# log2(50257^2) ≈ 31.2, but practical values are much lower (6-12)
	MAX_BIGRAM_ENTROPY : float = 12.0

	# ENTROPY NORMALIZATION
	# Maximum character entropy for English (lowercase + space ≈ 27 chars)
	# Theoretical max: log2(27) ≈ 4.75
	# Practical max for natural text: 3.0-4.5
	MAX_CHAR_ENTROPY : float = 4.5

	# CHARACTER ENTROPY THRESHOLDS
	# Typical English text character entropy ranges: 3.0-4.5 bits
	# - Very low (< 3.0): Extremely repetitive (strong synthetic indicator)
	# - Low (3.0-3.5): Somewhat repetitive (moderate synthetic indicator)
	# - Medium (3.5-4.0): Normal variation
	# - High (> 4.0): High variation (authentic indicator)
	CHAR_ENTROPY_VERY_LOW_THRESHOLD : float = 3.0
	CHAR_ENTROPY_LOW_THRESHOLD : float = 3.5
	CHAR_ENTROPY_MEDIUM_THRESHOLD : float = 4.0

	# ENTROPY VARIANCE THRESHOLDS
	# Variance in chunk entropies: Low variance = consistent = potentially synthetic
	ENTROPY_VARIANCE_VERY_LOW_THRESHOLD : float = 0.05
	ENTROPY_VARIANCE_LOW_THRESHOLD : float = 0.15
	ENTROPY_VARIANCE_MEDIUM_THRESHOLD : float = 0.25
	ENTROPY_VARIANCE_HIGH_THRESHOLD : float = 0.4
	ENTROPY_VARIANCE_MIXED_THRESHOLD : float = 0.25

	# TOKEN DIVERSITY THRESHOLDS
	# Type-token ratio (unique tokens / total tokens) depends heavily on text length:
	# - Short text (100 tokens): 0.7-0.9
	# - Medium text (500 tokens): 0.5-0.7
	# - Long text (1000+ tokens): 0.3-0.5
	TOKEN_DIVERSITY_LOW_THRESHOLD : float = 0.5
	TOKEN_DIVERSITY_MEDIUM_THRESHOLD : float = 0.65
	TOKEN_DIVERSITY_HIGH_THRESHOLD : float = 0.8

	# SEQUENCE UNPREDICTABILITY THRESHOLDS
	# Normalized bigram entropy (0-1 scale after dividing by MAX_BIGRAM_ENTROPY): Lower = more predictable sequences = synthetic
	SEQUENCE_UNPREDICTABILITY_LOW_THRESHOLD : float = 0.25
	SEQUENCE_UNPREDICTABILITY_MEDIUM_THRESHOLD : float = 0.4
	SEQUENCE_UNPREDICTABILITY_HIGH_THRESHOLD : float = 0.6

	# SYNTHETIC PATTERN SCORE THRESHOLDS
	# Proportion of synthetic patterns detected (0-1 scale)
	SYNTHETIC_PATTERN_SCORE_HIGH_THRESHOLD : float = 0.75
	SYNTHETIC_PATTERN_SCORE_MEDIUM_THRESHOLD : float = 0.5
	SYNTHETIC_PATTERN_MIXED_MIN : float = 0.4
	SYNTHETIC_PATTERN_MIXED_MAX : float = 0.6

	# TOKEN ENTROPY THRESHOLD
	# Token entropy typically ranges 6-10 for natural text
	# Lower = less diverse vocabulary = potentially synthetic
	TOKEN_ENTROPY_LOW_THRESHOLD : float = 6.0

	# SYNTHETIC PROBABILITY WEIGHTS
	STRONG_SYNTHETIC_WEIGHT : float = 0.9
	VERY_STRONG_SYNTHETIC_WEIGHT : float = 0.8
	MEDIUM_SYNTHETIC_WEIGHT : float = 0.7
	MODERATE_SYNTHETIC_WEIGHT : float = 0.6
	WEAK_SYNTHETIC_WEIGHT : float = 0.5
	VERY_WEAK_SYNTHETIC_WEIGHT : float = 0.4
	LOW_SYNTHETIC_WEIGHT : float = 0.3
	MINIMAL_SYNTHETIC_WEIGHT : float = 0.2
	VERY_LOW_SYNTHETIC_WEIGHT : float = 0.1

	# CONFIDENCE CALCULATION
	CONFIDENCE_BASE : float = 0.5 # Base confidence
	CONFIDENCE_STD_FACTOR : float = 0.3 # Weight for agreement between indicators
	CONFIDENCE_SAMPLE_FACTOR : float = 0.2 # Weight for sample size adequacy
	CONFIDENCE_STD_NORMALIZER : float = 0.5 # For backward compatibility
	MIN_CONFIDENCE : float = 0.1
	MAX_CONFIDENCE : float = 0.9
	NEUTRAL_CONFIDENCE : float = 0.5
	LOW_FEATURE_CONFIDENCE : float = 0.3
	MIN_REQUIRED_FEATURES : int = 2

	# Sample size thresholds for confidence
	MIN_CHUNKS_FOR_CONFIDENCE : int = 3 # Minimum chunks for reliable analysis
	MIN_TOKENS_FOR_CONFIDENCE : int = 100 # Minimum tokens for reliable analysis

	# HYBRID PROBABILITY CALCULATION
	ENTROPY_DISCREPANCY_THRESHOLD : float = 1.0
	STRONG_HYBRID_WEIGHT : float = 0.6
	MODERATE_HYBRID_WEIGHT : float = 0.4
	WEAK_HYBRID_WEIGHT : float = 0.3
	MINIMAL_HYBRID_WEIGHT : float = 0.0
	MAX_HYBRID_PROBABILITY : float = 0.4

	# DEFAULT FEATURE VALUES
	DEFAULT_CHAR_ENTROPY : float = 3.5
	DEFAULT_WORD_ENTROPY : float = 6.0
	DEFAULT_TOKEN_ENTROPY : float = 8.0
	DEFAULT_TOKEN_DIVERSITY : float = 0.65
	DEFAULT_SEQUENCE_UNPREDICTABILITY : float = 0.5
	DEFAULT_ENTROPY_VARIANCE : float = 0.2
	DEFAULT_AVG_CHUNK_ENTROPY : float = 3.5
	DEFAULT_PREDICTABILITY_SCORE : float = 0.5

	# MATH AND NORMALIZATION
	ZERO_TOLERANCE : float = 1e-10


	@dataclass(frozen = True)
	class MultiPerturbationStabilityMetricParams:
	"""
	Hyperparameters for Multi-Perturbation Stability Metric: Based on statistical foundations and DetectGPT methodology
	"""
	# TEXT VALIDATION
	MIN_TEXT_LENGTH_FOR_ANALYSIS : int = 50
	MIN_TEXT_LENGTH_FOR_PERTURBATION : int = 10
	MIN_TOKENS_FOR_LIKELIHOOD : int = 3
	MIN_WORDS_FOR_PERTURBATION : int = 3
	MIN_WORDS_FOR_DELETION : int = 5

	# DOMAIN THRESHOLD APPLICATION
	STRONG_SYNTHETIC_BASE_PROB : float = 0.7
	STRONG_AUTHENTIC_BASE_PROB : float = 0.7
	WEAK_PROBABILITY_ADJUSTMENT : float = 0.3
	UNCERTAIN_SYNTHETIC_RANGE_START : float = 0.3
	UNCERTAIN_AUTHENTIC_RANGE_START : float = 0.7
	UNCERTAIN_RANGE_WIDTH : float = 0.4
	NEUTRAL_PROBABILITY : float = 0.5
	MIN_PROBABILITY : float = 0.0
	MAX_PROBABILITY : float = 1.0

	# PERTURBATION PARAMETERS
	NUM_PERTURBATIONS : int = 20
	MAX_PERTURBATION_ATTEMPTS : int = 10
	PERTURBATION_DELETION_RATIO : float = 0.13
	ROBBERTA_TOP_K_PREDICTIONS : int = 5

	# TEXT PREPROCESSING
	MAX_TEXT_LENGTH_FOR_ANALYSIS : int = 2000
	MAX_TEXT_LENGTH_FOR_PERTURBATION : int = 1000
	MAX_TOKEN_LENGTH : int = 256
	MAX_ROBERTA_TOKEN_LENGTH : int = 128

	# CHUNK ANALYSIS
	CHUNK_SIZE_WORDS : int = 150
	CHUNK_OVERLAP_RATIO : float = 0.5
	MIN_CHUNK_LENGTH : int = 50
	CHUNK_DELETION_RATIO : float = 0.1

	# These are NEGATIVE log-probabilities (cross-entropy loss values)
	MIN_VALID_PERTURBATIONS : int = 3
	DEFAULT_LOG_PROB : float = 5.0 # Typical negative log-prob for coherent text
	LOG_PROB_SANITY_MIN : float = 15.0 # Very incoherent text (high perplexity)
	LOG_PROB_SANITY_MAX : float = 1.0 # Very predictable text (low perplexity)

	# STABILITY SCORE CALCULATION
	# Stability = mean absolute difference between original and perturbed log-probs
	# Lower stability = more synthetic (text remains predictable after perturbations)
	# Higher stability = more authentic (text becomes less predictable after perturbations)
	STABILITY_SYNTHETIC_THRESHOLD : float = 0.5 # Below this = likely synthetic
	STABILITY_AUTHENTIC_THRESHOLD : float = 1.5 # Above this = likely authentic
	STABILITY_SCALING_FACTOR : float = 1.0 # For normalization if needed

	# CURVATURE SCORE CALCULATION
	# Curvature = variance of log-prob differences across perturbations
	# Low curvature = smooth likelihood surface = more synthetic
	# High curvature = rough likelihood surface = more authentic
	CURVATURE_SYNTHETIC_THRESHOLD : float = 0.1 # Below this = likely synthetic
	CURVATURE_AUTHENTIC_THRESHOLD : float = 0.5 # Above this = likely authentic
	CURVATURE_SCALING_FACTOR : float = 2.0 # Variance is typically small, scale for interpretability

	# STABILITY VARIANCE THRESHOLDS (For chunk consistency analysis)
	STABILITY_VARIANCE_VERY_LOW : float = 0.05 # Very consistent = synthetic
	STABILITY_VARIANCE_LOW : float = 0.1 # Somewhat consistent
	STABILITY_VARIANCE_MEDIUM : float = 0.2 # Moderate variance
	STABILITY_VARIANCE_HIGH : float = 0.3 # High variance = authentic

	# FEATURE WEIGHTS
	STABILITY_WEIGHT : float = 0.45 # Primary signal (most reliable)
	CURVATURE_WEIGHT : float = 0.35 # Secondary signal (surface smoothness)
	VARIANCE_WEIGHT : float = 0.20 # Tertiary signal (consistency check)

	# For stability score interpretation
	STABILITY_STRONG_SYNTHETIC : float = 0.3 # Very low stability
	STABILITY_MODERATE_SYNTHETIC : float = 0.8 # Medium stability
	STABILITY_WEAK_SYNTHETIC : float = 1.2 # Higher stability
	STABILITY_AUTHENTIC : float = 1.8 # Very high stability

	# For curvature score interpretation
	CURVATURE_STRONG_SYNTHETIC : float = 0.05 # Very low curvature
	CURVATURE_MODERATE_SYNTHETIC : float = 0.2 # Medium curvature
	CURVATURE_WEAK_SYNTHETIC : float = 0.4 # Higher curvature
	CURVATURE_AUTHENTIC : float = 0.7 # Very high curvature

	# For variance interpretation
	VARIANCE_STRONG_SYNTHETIC : float = 0.05 # Very low variance
	VARIANCE_MODERATE_SYNTHETIC : float = 0.15 # Medium variance
	VARIANCE_WEAK_SYNTHETIC : float = 0.25 # Higher variance
	VARIANCE_AUTHENTIC : float = 0.35 # Very high variance

	# Probability weights for different levels
	PROB_WEIGHT_STRONG : float = 0.9 # High confidence synthetic
	PROB_WEIGHT_MODERATE : float = 0.7 # Medium confidence synthetic
	PROB_WEIGHT_WEAK : float = 0.5 # Low confidence synthetic
	PROB_WEIGHT_NEUTRAL : float = 0.3 # Uncertain
	PROB_WEIGHT_AUTHENTIC : float = 0.1 # Likely authentic

	# CONFIDENCE CALCULATION
	CONFIDENCE_BASE : float = 0.5 # Base confidence
	CONFIDENCE_PERTURBATION_FACTOR : float = 0.3 # More valid perturbations = higher confidence
	CONFIDENCE_AGREEMENT_FACTOR : float = 0.2 # Agreement between signals = higher confidence
	MIN_CONFIDENCE : float = 0.1 # Minimum reportable confidence
	MAX_CONFIDENCE : float = 0.9 # Maximum reportable confidence
	NEUTRAL_CONFIDENCE : float = 0.5 # Neutral confidence level
	LOW_FEATURE_CONFIDENCE : float = 0.3 # Low confidence when features insufficient
	MIN_REQUIRED_FEATURES : int = 3 # Minimum features needed for confident assessment

	# HYBRID PROBABILITY CALCULATION
	STABILITY_MIXED_MIN : float = 0.5 # Lower bound for mixed content stability
	STABILITY_MIXED_MAX : float = 1.0 # Upper bound for mixed content stability
	CURVATURE_MIXED_MIN : float = 0.2 # Lower bound for mixed content curvature
	CURVATURE_MIXED_MAX : float = 0.4 # Upper bound for mixed content curvature
	VARIANCE_MIXED_MIN : float = 0.1 # Lower bound for mixed content variance
	VARIANCE_MIXED_MAX : float = 0.25 # Upper bound for mixed content variance

	MODERATE_HYBRID_WEIGHT : float = 0.4 # Strong hybrid indicator
	WEAK_HYBRID_WEIGHT : float = 0.3 # Moderate hybrid indicator
	VERY_WEAK_HYBRID_WEIGHT : float = 0.2 # Weak hybrid indicator
	MINIMAL_HYBRID_WEIGHT : float = 0.0 # No hybrid indication
	MAX_HYBRID_PROBABILITY : float = 0.4 # Maximum hybrid probability

	# DEFAULT FEATURE VALUES
	DEFAULT_ORIGINAL_LOG_PROB : float = 5.0 # Neutral log-probability
	DEFAULT_AVG_PERTURBED_LOG_PROB : float = 5.5 # Slightly higher (less predictable after perturbation)
	DEFAULT_STABILITY_SCORE : float = 0.8 # Neutral stability
	DEFAULT_CURVATURE_SCORE : float = 0.3 # Neutral curvature
	DEFAULT_PERTURBATION_VARIANCE : float = 0.2 # Neutral variance
	DEFAULT_AVG_CHUNK_STABILITY : float = 0.8 # Neutral chunk stability
	DEFAULT_STABILITY_VARIANCE : float = 0.2 # Neutral stability variance

	# MATH AND NORMALIZATION
	ZERO_TOLERANCE : float = 1e-10 # Numerical stability threshold

	# COMMON WORDS TO AVOID MASKING
	COMMON_WORDS_TO_AVOID : tuple = ('the', 'and', 'but', 'for', 'with', 'that', 'this', 'have', 'from', 'were',
	'been', 'being', 'very', 'most', 'more', 'some', 'such', 'into', 'also',
	'than', 'them', 'they', 'their', 'there', 'these', 'those', 'what', 'when',
	'where', 'which', 'while', 'will', 'would', 'could', 'should')



	@dataclass(frozen = True)
	class MetricsEnsembleParams:
	"""
	Constants for Metrics Ensemble Classifier
	"""
	# MINIMUM REQUIREMENTS
	MIN_METRICS_REQUIRED : int = 3

	# DEFAULT PROBABILITIES (for fallback/error cases)
	DEFAULT_SYNTHETIC_PROB : float = 0.5
	DEFAULT_AUTHENTIC_PROB : float = 0.5
	DEFAULT_HYBRID_PROB : float = 0.0

	CALIBRATION_TEMP_MIN : float = 1.0
	CALIBRATION_TEMP_MAX : float = 3.0

	# SIGMOID CONFIDENCE ADJUSTMENT
	# Formula: sigmoid(scale * (confidence - center))
	# This creates a non-linear weighting where:
	# - Low confidence metrics get heavily downweighted
	# - High confidence metrics get upweighted
	# - Center point (0.5) is the inflection point
	SIGMOID_CONFIDENCE_SCALE : float = 8.0 # Steepness of sigmoid
	SIGMOID_CENTER : float = 0.5 # Center of sigmoid

	# CALIBRATION PARAMETERS: Since we can't properly apply temperature scaling to probabilities, we use Platt scaling instead (beta distribution calibration)
	PLATT_SCALING_ALPHA : float = 1.3 # Shape parameter (> 1 = sharpen, < 1 = soften)
	PLATT_SCALING_BETA : float = 1.3 # Shape parameter
	USE_PLATT_SCALING : bool = True # Enable/disable calibration

	# Alternative: Simple power scaling (prob^exponent)
	POWER_CALIBRATION_EXPONENT : float = 0.85 # < 1 softens probabilities
	USE_POWER_CALIBRATION : bool = False # Alternative to Platt

	# CONFIDENCE LABELING THRESHOLDS
	# These define confidence levels based on distance from 0.5
	# "Very High": prob < 0.10 or > 0.90
	# "High": prob < 0.20 or > 0.80
	# "Moderate": prob < 0.30 or > 0.70
	# "Low": everything else
	CONFIDENCE_VERY_HIGH_BOUNDARY : float = 0.10
	CONFIDENCE_HIGH_BOUNDARY : float = 0.20
	CONFIDENCE_MODERATE_BOUNDARY : float = 0.30

	# DECISION PARAMETERS
	MAX_CONFIDENCE : float = 1.0
	MAX_DECISION_UNCERTAINTY : float = 1.0
	DECISION_UNCERTAINTY_SCALE : float = 2.0 # Amplifies distance from center
	DECISION_AMBIGUITY_CENTER : float = 0.5 # Center point for ambiguity
	DECISION_MARGIN : float = 0.05 # Safety margin for decisions

	# UNCERTAINTY COMPOSITION
	# Uncertainty = weighted combination of:
	# 1. Variance across metric predictions
	# 2. Average confidence of metrics
	# 3. Closeness to decision boundary (0.5)
	UNCERTAINTY_WEIGHT_VARIANCE : float = 0.4
	UNCERTAINTY_WEIGHT_CONFIDENCE : float = 0.3
	UNCERTAINTY_WEIGHT_DECISION : float = 0.3

	# CONFIDENCE COMPOSITION: Overall confidence = weighted combination of:
	# 1. Weighted average of individual metric confidences
	# 2. Agreement/consensus among metrics
	CONFIDENCE_WEIGHT_EVIDENCE : float = 0.70
	CONFIDENCE_WEIGHT_CONSENSUS : float = 0.30

	# CONSENSUS CALCULATION
	# Consensus = 1 - (std_dev * scale)
	# Lower standard deviation = higher consensus
	CONSENSUS_STD_SCALING : float = 2.0
	METRICS_DISAGREEMENT_THRESHOLD_HIGH : float = 0.7 # High uncertainty warning
	METRICS_DISAGREEMENT_THRESHOLD_STRONG : float = 0.8 # Strong consensus indicator

	# HYBRID DETECTION
	HYBRID_PROB_THRESHOLD : float = 0.20 # Direct hybrid probability threshold
	HYBRID_UNCERTAINTY_THRESHOLD : float = 0.55 # Uncertainty level suggesting mixed content
	HYBRID_SYNTHETIC_RANGE_LOW : float = 0.35 # Lower bound of "mixed zone"
	HYBRID_SYNTHETIC_RANGE_HIGH : float = 0.65 # Upper bound of "mixed zone"

	# THRESHOLD ADAPTATION : Adjust decision threshold based on uncertainty
	# Higher uncertainty requires higher confidence for classification
	UNCERTAINTY_THRESHOLD_ADJUSTMENT : float = 0.10

	# ABSTENTION / COVERAGE CONTROL: Selective prediction: Don't make a decision if confidence is too low
	MIN_CONFIDENCE_FOR_DECISION : float = 0.50 # Minimum overall confidence
	MAX_UNCERTAINTY_FOR_DECISION : float = 0.55 # Maximum acceptable uncertainty
	MIN_CONSENSUS_FOR_DECISION : float = 0.40 # Minimum metric consensus


	@dataclass(frozen = True)
	class OrchestrationParameters:
	"""
	Constants for Orchestration Layer with Long text handling
	"""
	# Text Limit for Domain Classification
	MAX_WORDS_FOR_CLASSIFICATION : int = 500

	# Windowing
	MAX_SINGLE_ANALYSIS_WORDS : int = 500 # Process texts under 800 words normally
	WINDOW_SIZE_WORDS : int = 400 # Each window size
	WINDOW_OVERLAP_WORDS : int = 150 # Overlap between windows
	WINDOW_LOW_VARIANCE_THRESHOLD : float = 0.03
	MIN_VALID_METRICS_RATIO_PER_WINDOW : float = 0.5

	# Decision logic
	WINDOW_VARIANCE_CONSENSUS_SCALE : float = 2.0
	MIN_WINDOW_WORDS_ABSOLUTE : int = 200
	WINDOW_VERDICT_MARGIN : float = 0.12
	WINDOW_VERDICT_CONFIDENCE_GATE : float = 0.60

	# Stability thresholds
	STABILITY_HARD_OVERRIDE : float = 0.25
	STABILITY_HARD_MIN_SYNTHETIC : float = 0.65 # floor on synthetic prob
	STABILITY_HARD_CONFIDENCE_BOOST : float = 0.10
	STABILITY_HARD_CONFIDENCE_CAP : float = 0.80
	HIGH_VARIANCE_CONFIDENCE_MULTIPLIER : float = 0.85



	# Singleton instances for parameter classes
	document_extraction_params = DocumentExtractionParams()
	language_detection_params = LanguageDetectionParams()
	domain_classification_params = DomainClassificationParams()
	text_processing_params = TextProcessingParams()
	base_metric_params = BaseMetricParams()
	structural_metric_params = StructuralMetricParams()
	semantic_analysis_params = SemanticAnalysisParams()
	linguistic_metric_params = LinguisticMetricParams()
	perplexity_metric_params = PerplexityMetricParams()
	entropy_metric_params = EntropyMetricParams()
	multi_perturbation_stability_metric_params = MultiPerturbationStabilityMetricParams()
	metrics_ensemble_params = MetricsEnsembleParams()
	orchestration_parameters = OrchestrationParameters()