How to process and deduplicate large text files

Question

How can I remove duplicate lines from a large text file efficiently in Perl?

Free Perl Code · Accepted Answer

Use a hash to track seen lines for memory-efficient deduplication: #!/usr/bin/perl use strict; use warnings; my $input_file = 'large-file.txt'; my $output_file = 'deduplicated.txt'; open my $in, ' ', $output_file or die "Cannot open output: $!"; my %seen; my $duplicates = 0; my $unique = 0; while (my $line = ) { unless ($seen{$line}++) { print $out $line; $unique++; } else { $duplicates++; } } close $in; close $out; print "Deduplication complete:
"; print "Unique lines: $unique
"; print "Duplicates removed: $duplicates
"; This script reads a file line by line, uses a hash to track seen lines, and writes only unique lines to the output file.

How to process and deduplicate large text files

Question

Was this helpful?

Related Questions