SortTextEncoder Java

Hochgeladen von

Clarken Tran

0% fanden dieses Dokument nützlich (0 Abstimmungen)

24 Ansichten3 Seiten

srt

Originaltitel

SortTextEncoder.java

Copyright

Verfügbare Formate

TXT, PDF, TXT oder online auf Scribd lesen

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Dieses Dokument melden

srt

Copyright:

Verfügbare Formate

Als TXT, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

0% fanden dieses Dokument nützlich (0 Abstimmungen)

24 Ansichten3 Seiten

SortTextEncoder Java

Hochgeladen von

Clarken Tran

srt

Copyright:

Verfügbare Formate

Als TXT, PDF, TXT herunterladen oder online auf Scribd lesen

Markieren Sie unangemessene Inhalte

Zu Seite

Sie sind auf Seite 1von 3

Im Dokument suchen

/*

* Word-based sort coding encoder

*
* Copyright (c) 2017 Project Nayuki
* All rights reserved. Contact Nayuki for licensing.
* https://www.nayuki.io/page/huffman-coding-english-words
*/

import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.TreeMap;

public final class SortTextEncoder {

public static void main(String[] args) throws IOException {

// Check arguments
if (args.length != 2) {
System.err.println("Usage: java SortTextEncoder Input.txt
Encoded.txt");
System.exit(1);
}

// Tokenize input text file

List<TextToken> tokens = TextTokenizer.tokenize(new File(args[0]));

// Count word frequencies

// e.g. {a:137, in:89, the:256}
Map<String,Integer> wordFreq = new TreeMap<String,Integer>(); // Word
keys are in ascending order
for (TextToken tok : tokens) {
if (tok.type >= 0 && tok.type <= 2) { // Skip weird-case words
because they must be escape-coded
String key = tok.value.toLowerCase(); // Normalize to
lowercase
wordFreq.put(key, (wordFreq.containsKey(key) ?
wordFreq.get(key) : 0) + 1);
}
}

// Group words by frequency

// e.g. {256:[the], 137:[a], 89:[in], 50:[if,is,on], ..., 2:
[garden,little,sends,trolling,...]}
// Frequency keys are in descending order; word list values are in
ascending order
TreeMap<Integer,List<String>> freqWord = new
TreeMap<>(Collections.reverseOrder());
for (String word : wordFreq.keySet()) {
Integer freq = wordFreq.get(word);
if (freq > 1) { // Don't give codewords to hapax legomena
(freq=1) for space efficiency reasons
if (!freqWord.containsKey(freq))
freqWord.put(freq, new ArrayList<String>());
freqWord.get(freq).add(word);
}
}

// Start writing output text file

Writer out = new OutputStreamWriter(new BufferedOutputStream(new
FileOutputStream(args[1])), "UTF-8");
try {
// Build and write codebook
out.write("a ESC\n"); // Hard-coded escape codeword prefix
Map<String,String> wordToCodeword = new HashMap<String,String>();
char[] nextCodeword = {'b'}; // The prefix "a" is reserved for
escaped words, thus all other codes do not begin with "a"
for (Integer freq : freqWord.keySet()) {
for (String word : freqWord.get(freq)) {
String codeword = new String(nextCodeword);
wordToCodeword.put(word, codeword);
out.write(codeword + " " + word + "\n");

// Increment codeword, e.g. ba -> bb -> bc -> ... ->

bz -> ca -> ...
int i = nextCodeword.length - 1;
while (i >= 0 && nextCodeword[i] == 'z') {
nextCodeword[i] = 'a';
i--;
}
if (i >= 0)
nextCodeword[i]++;
else {
// Increment codeword length
nextCodeword = new char[nextCodeword.length +
1];
Arrays.fill(nextCodeword, 'a');
nextCodeword[0] = 'b';
}
}
}
out.write("----------\n"); // End of codebook

// Encode all input text tokens to output

for (TextToken tok : tokens) {
if (tok.type == 4) { // Symbol
out.write(tok.value);
continue;
}
if (tok.type >= 0 && tok.type <= 2) {
String key = tok.value.toLowerCase();
if (wordToCodeword.containsKey(key)) {
String code = wordToCodeword.get(key);
if (tok.type == 1)
code = code.substring(0, 1).toUpperCase()
+ code.substring(1).toLowerCase(); // To title case
if (tok.type == 2) {
if (code.length() >= 2)
code = code.toUpperCase();
else
code = null; // Not encodable,
needs escape
}
if (code != null) {
out.write(code);
continue;
}
}
}
if (tok.type >= 0 && tok.type <= 3) { // Escape
out.write("a" + tok.value);
continue;
}
throw new AssertionError();
}
} finally {
out.close();
}
}

Das könnte Ihnen auch gefallen

Shoe Dog: A Memoir by the Creator of Nike
Von Everand
Shoe Dog: A Memoir by the Creator of Nike
Phil Knight
Bewertung: 4.5 von 5 Sternen
4.5/5 (537)
Seniors: International Mathematics
Dokument1 Seite
Seniors: International Mathematics
Clarken Tran
Noch keine Bewertungen
The Yellow House: A Memoir (2019 National Book Award Winner)
Von Everand
The Yellow House: A Memoir (2019 National Book Award Winner)
Sarah M. Broom
Bewertung: 4 von 5 Sternen
4/5 (98)
Chi Pham: Vu Hong Thuy Anh Quang
Dokument1 Seite
Chi Pham: Vu Hong Thuy Anh Quang
Clarken Tran
Noch keine Bewertungen
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Von Everand
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Mark Manson
Bewertung: 4 von 5 Sternen
4/5 (5794)
AD BK. Let P Be The Point of Intersection of BD With The Perpendicular Bisector of BC
Dokument1 Seite
AD BK. Let P Be The Point of Intersection of BD With The Perpendicular Bisector of BC
Clarken Tran
Noch keine Bewertungen
Yes Please
Von Everand
Yes Please
Amy Poehler
Bewertung: 4 von 5 Sternen
4/5 (1891)
Summer Conference The Tournament of Towns 2013
Dokument2 Seiten
Summer Conference The Tournament of Towns 2013
Clarken Tran
Noch keine Bewertungen
The Little Book of Hygge: Danish Secrets to Happy Living
Von Everand
The Little Book of Hygge: Danish Secrets to Happy Living
Meik Wiking
Bewertung: 3.5 von 5 Sternen
3.5/5 (400)
TT2001S
Dokument1 Seite
TT2001S
Clarken Tran
Noch keine Bewertungen
Grit: The Power of Passion and Perseverance
Von Everand
Grit: The Power of Passion and Perseverance
Angela Duckworth
Bewertung: 4 von 5 Sternen
4/5 (588)
22nd Tournament of Towns: Ordinary Level
Dokument1 Seite
22nd Tournament of Towns: Ordinary Level
Clarken Tran
Noch keine Bewertungen
Elon Musk: Tesla, SpaceX, and the Quest for a Fantastic Future
Von Everand
Elon Musk: Tesla, SpaceX, and the Quest for a Fantastic Future
Ashlee Vance
Bewertung: 4.5 von 5 Sternen
4.5/5 (474)
Cs229 HMM - Ps
Dokument13 Seiten
Cs229 HMM - Ps
Clarken Tran
Noch keine Bewertungen
A Heartbreaking Work Of Staggering Genius: A Memoir Based on a True Story
Von Everand
A Heartbreaking Work Of Staggering Genius: A Memoir Based on a True Story
Dave Eggers
Bewertung: 3.5 von 5 Sternen
3.5/5 (231)
You Can Teach Problem Solving and You Should: Elizabeth Zwicky Great Circle, Inc
Dokument35 Seiten
You Can Teach Problem Solving and You Should: Elizabeth Zwicky Great Circle, Inc
Clarken Tran
Noch keine Bewertungen
Hidden Figures: The American Dream and the Untold Story of the Black Women Mathematicians Who Helped Win the Space Race
Von Everand
Hidden Figures: The American Dream and the Untold Story of the Black Women Mathematicians Who Helped Win the Space Race
Margot Lee Shetterly
Bewertung: 4 von 5 Sternen
4/5 (895)
Linux-4 9 77-4 9 77-Cher1 Diff
Dokument70 Seiten
Linux-4 9 77-4 9 77-Cher1 Diff
Clarken Tran
Noch keine Bewertungen
Team of Rivals: The Political Genius of Abraham Lincoln
Von Everand
Team of Rivals: The Political Genius of Abraham Lincoln
Doris Kearns Goodwin
Bewertung: 4.5 von 5 Sternen
4.5/5 (234)
Educational Research: The Art of Problem Solving: Solomon R. Guggenheim Museum New York, NY
Dokument9 Seiten
Educational Research: The Art of Problem Solving: Solomon R. Guggenheim Museum New York, NY
Clarken Tran
Noch keine Bewertungen
Never Split the Difference: Negotiating As If Your Life Depended On It
Von Everand
Never Split the Difference: Negotiating As If Your Life Depended On It
Chris Voss
Bewertung: 4.5 von 5 Sternen
4.5/5 (838)
Mtc3 Esslinger 01 Zahlenfolge en
Dokument2 Seiten
Mtc3 Esslinger 01 Zahlenfolge en
Clarken Tran
Noch keine Bewertungen
The Emperor of All Maladies: A Biography of Cancer
Von Everand
The Emperor of All Maladies: A Biography of Cancer
Siddhartha Mukherjee
Bewertung: 4.5 von 5 Sternen
4.5/5 (271)
Egg Drop
Dokument38 Seiten
Egg Drop
Clarken Tran
Noch keine Bewertungen
Devil in the Grove: Thurgood Marshall, the Groveland Boys, and the Dawn of a New America
Von Everand
Devil in the Grove: Thurgood Marshall, the Groveland Boys, and the Dawn of a New America
Gilbert King
Bewertung: 4.5 von 5 Sternen
4.5/5 (266)
l12 Skiplists
Dokument6 Seiten
l12 Skiplists
Clarken Tran
Noch keine Bewertungen
On Fire: The (Burning) Case for a Green New Deal
Von Everand
On Fire: The (Burning) Case for a Green New Deal
Naomi Klein
Bewertung: 4 von 5 Sternen
4/5 (74)
Trend Followers Lose More Often Than They Gain: Electronic Address: Marc - Potters@cfm - FR, Jean-Philippe - Bouchaud@
Dokument7 Seiten
Trend Followers Lose More Often Than They Gain: Electronic Address: Marc - Potters@cfm - FR, Jean-Philippe - Bouchaud@
Clarken Tran
Noch keine Bewertungen
Principles: Life and Work
Von Everand
Principles: Life and Work
Ray Dalio
Bewertung: 4 von 5 Sternen
4/5 (599)
The Direct3D Graphics Pipeline: Richard Atwater Thomson August 13, 2006
Dokument30 Seiten
The Direct3D Graphics Pipeline: Richard Atwater Thomson August 13, 2006
Clarken Tran
Noch keine Bewertungen
The Unwinding: An Inner History of the New America
Von Everand
The Unwinding: An Inner History of the New America
George Packer
Bewertung: 4 von 5 Sternen
4/5 (45)
COM: Component Object Model
Dokument40 Seiten
COM: Component Object Model
Clarken Tran
Noch keine Bewertungen
Fear: Trump in the White House
Von Everand
Fear: Trump in the White House
Bob Woodward
Bewertung: 3.5 von 5 Sternen
3.5/5 (738)
Cmsc360 A Reading Assignment 10 (11/18)
Dokument2 Seiten
Cmsc360 A Reading Assignment 10 (11/18)
Clarken Tran
Noch keine Bewertungen
Rise of ISIS: A Threat We Can't Ignore
Von Everand
Rise of ISIS: A Threat We Can't Ignore
Jay Sekulow
Bewertung: 3.5 von 5 Sternen
3.5/5 (137)
Lean Construction
Dokument37 Seiten
Lean Construction
Mohamed Talaat Elsheikh
Noch keine Bewertungen
The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers
Von Everand
The Hard Thing About Hard Things: Building a Business When There Are No Easy Answers
Ben Horowitz
Bewertung: 4.5 von 5 Sternen
4.5/5 (345)
17333
Dokument2 Seiten
17333
Nithya Ravi
Noch keine Bewertungen
Steve Jobs
Von Everand
Steve Jobs
Walter Isaacson
Bewertung: 4.5 von 5 Sternen
4.5/5 (806)
747
Dokument12 Seiten
747
GurdevBaines
100% (3)
The World Is Flat 3.0: A Brief History of the Twenty-first Century
Von Everand
The World Is Flat 3.0: A Brief History of the Twenty-first Century
Thomas L. Friedman
Bewertung: 3.5 von 5 Sternen
3.5/5 (2259)
Dubai Holding Factsheet
Dokument2 Seiten
Dubai Holding Factsheet
Harley soul
Noch keine Bewertungen
Bad Feminist: Essays
Von Everand
Bad Feminist: Essays
Roxane Gay
Bewertung: 4 von 5 Sternen
4/5 (1016)
Septalkan
Dokument5 Seiten
Septalkan
Reni
Noch keine Bewertungen
Angela's Ashes: A Memoir
Von Everand
Angela's Ashes: A Memoir
Frank McCourt
Bewertung: 4.5 von 5 Sternen
4.5/5 (440)
Final Report 2
Dokument110 Seiten
Final Report 2
Aftab Ali
Noch keine Bewertungen
The Glass Castle: A Memoir
Von Everand
The Glass Castle: A Memoir
Jeannette Walls
Bewertung: 4.5 von 5 Sternen
4.5/5 (1713)
Yuasa Technical Data Sheet: The World's Leading Battery Manufacturer
Dokument1 Seite
Yuasa Technical Data Sheet: The World's Leading Battery Manufacturer
Ashraf Sayed Shabaan
Noch keine Bewertungen
The Gifts of Imperfection: Let Go of Who You Think You're Supposed to Be and Embrace Who You Are
Von Everand
The Gifts of Imperfection: Let Go of Who You Think You're Supposed to Be and Embrace Who You Are
Brené Brown
Bewertung: 4 von 5 Sternen
4/5 (1090)
LED Personal Portable Desk - Group 7-Imtiaz - 31072021
Dokument8 Seiten
LED Personal Portable Desk - Group 7-Imtiaz - 31072021
SYED AMIRUL NAZMI BIN SYED ANUAR
Noch keine Bewertungen
John Adams
Von Everand
John Adams
David McCullough
Bewertung: 4.5 von 5 Sternen
4.5/5 (2409)
SVC200
Dokument5 Seiten
SVC200
fransiskus_ricky3329
Noch keine Bewertungen
The Outsider: A Novel
Von Everand
The Outsider: A Novel
Stephen King
Bewertung: 4 von 5 Sternen
4/5 (1839)
The Child and Adolescent Learners and Learning Principles
Dokument8 Seiten
The Child and Adolescent Learners and Learning Principles
Aragon Khail
Noch keine Bewertungen
The Light Between Oceans: A Novel
Von Everand
The Light Between Oceans: A Novel
M.L. Stedman
Bewertung: 4.5 von 5 Sternen
4.5/5 (789)
ISO IEC 11801-5 - IT - Generic Cabling For Data Centre
Dokument63 Seiten
ISO IEC 11801-5 - IT - Generic Cabling For Data Centre
shazwanshaiful1
Noch keine Bewertungen
The Sympathizer: A Novel (Pulitzer Prize for Fiction)
Von Everand
The Sympathizer: A Novel (Pulitzer Prize for Fiction)
Viet Thanh Nguyen
Bewertung: 4.5 von 5 Sternen
4.5/5 (121)
ISO 27001 Gap Analysis Checklist
Dokument6 Seiten
ISO 27001 Gap Analysis Checklist
lijo jacob
70% (10)
A Man Called Ove: A Novel
Von Everand
A Man Called Ove: A Novel
Fredrik Backman
Bewertung: 4.5 von 5 Sternen
4.5/5 (4609)
Aesa Vs Pesa
Dokument30 Seiten
Aesa Vs Pesa
kab11512
100% (1)
Wolf Hall: A Novel
Von Everand
Wolf Hall: A Novel
Hilary Mantel
Bewertung: 4 von 5 Sternen
4/5 (3811)
Superbolt
Dokument32 Seiten
Superbolt
Rajeev Chandel
100% (1)
Brooklyn: A Novel
Von Everand
Brooklyn: A Novel
Colm Toibin
Bewertung: 3.5 von 5 Sternen
3.5/5 (1937)
1 Ha Cabbages - May 2018 PDF
Dokument1 Seite
1 Ha Cabbages - May 2018 PDF
Mwai Esther
Noch keine Bewertungen
The Woman in Cabin 10
Von Everand
The Woman in Cabin 10
Ruth Ware
Bewertung: 3.5 von 5 Sternen
3.5/5 (2322)
Nassaji - Schema Theory
Dokument37 Seiten
Nassaji - Schema Theory
Atiq Aslam
Noch keine Bewertungen
Little Women
Von Everand
Little Women
Louisa May Alcott
Bewertung: 4 von 5 Sternen
4/5 (104)
5 Levels of Leadership Answers
Dokument4 Seiten
5 Levels of Leadership Answers
k98hk8wnnb
Noch keine Bewertungen
Manhattan Beach: A Novel
Von Everand
Manhattan Beach: A Novel
Jennifer Egan
Bewertung: 3.5 von 5 Sternen
3.5/5 (792)
EE 720 - HW Set 3 - 1
Dokument2 Seiten
EE 720 - HW Set 3 - 1
Abdullah AL-Razem
Noch keine Bewertungen
The Perks of Being a Wallflower
Von Everand
The Perks of Being a Wallflower
Stephen Chbosky
Bewertung: 4.5 von 5 Sternen
4.5/5 (2104)
Activity Diagram Airline Reservation System PDF
Dokument4 Seiten
Activity Diagram Airline Reservation System PDF
Anonymous zSn6IALuab
Noch keine Bewertungen
Sing, Unburied, Sing: A Novel
Von Everand
Sing, Unburied, Sing: A Novel
Jesmyn Ward
Bewertung: 4 von 5 Sternen
4/5 (1103)
Reading TAF's
Dokument4 Seiten
Reading TAF's
Douglas Alvarez
Noch keine Bewertungen
The Art of Racing in the Rain: A Novel
Von Everand
The Art of Racing in the Rain: A Novel
Garth Stein
Bewertung: 4 von 5 Sternen
4/5 (4200)
Legislation Statutory Inspection Checklist
Dokument2 Seiten
Legislation Statutory Inspection Checklist
Ary Putra
Noch keine Bewertungen
Her Body and Other Parties: Stories
Von Everand
Her Body and Other Parties: Stories
Carmen Maria Machado
Bewertung: 4 von 5 Sternen
4/5 (821)
Drone Survival Guide
Dokument2 Seiten
Drone Survival Guide
vthiseas
Noch keine Bewertungen
A Tree Grows in Brooklyn
Von Everand
A Tree Grows in Brooklyn
Betty Smith
Bewertung: 4.5 von 5 Sternen
4.5/5 (1929)
Module 2: Most Essential Learning Competencies (Melcs) : Lesson 1: Background, Rationale, and Development of Melcs
Dokument5 Seiten
Module 2: Most Essential Learning Competencies (Melcs) : Lesson 1: Background, Rationale, and Development of Melcs
Robert Kier Tanquerido Tomaro
Noch keine Bewertungen
The Constant Gardener: A Novel
Von Everand
The Constant Gardener: A Novel
John le Carré
Bewertung: 3.5 von 5 Sternen
3.5/5 (104)
Reflection
Dokument1 Seite
Reflection
Heaven Guzman
Noch keine Bewertungen
Winsome Hin-Shin LEE CV (Feb 2017)
Dokument5 Seiten
Winsome Hin-Shin LEE CV (Feb 2017)
Winsome Lee
Noch keine Bewertungen
Arquitectura Objectiva cl2002
Dokument9 Seiten
Arquitectura Objectiva cl2002
api-717600385
Noch keine Bewertungen
Senior Curriculum Vol 1 2012 Final
Dokument361 Seiten
Senior Curriculum Vol 1 2012 Final
d-fbuser-27550451
Noch keine Bewertungen
SRM
Dokument4 Seiten
SRM
inocente333
Noch keine Bewertungen
Minimum Leak Path For TTJ
Dokument3 Seiten
Minimum Leak Path For TTJ
parikshitpadture
100% (2)
Surface Tensison
Dokument28 Seiten
Surface Tensison
JAWAD AHMAD BURT
Noch keine Bewertungen
Excel Essentials: A Step-by-Step Guide with Pictures for Absolute Beginners to Master the Basics and Start Using Excel with Confidence
Von Everand
Excel Essentials: A Step-by-Step Guide with Pictures for Absolute Beginners to Master the Basics and Start Using Excel with Confidence
Nigel Tillery
Noch keine Bewertungen
Learn Python Programming for Beginners: Best Step-by-Step Guide for Coding with Python, Great for Kids and Adults. Includes Practical Exercises on Data Analysis, Machine Learning and More.
Von Everand
Learn Python Programming for Beginners: Best Step-by-Step Guide for Coding with Python, Great for Kids and Adults. Includes Practical Exercises on Data Analysis, Machine Learning and More.
Flynn Fisher
Bewertung: 5 von 5 Sternen
5/5 (34)
Building large scale web apps
Von Everand
Building large scale web apps
Addy Osmani
Noch keine Bewertungen