rune-caster/unicode_8hpp_source.html

#pragma once


#include <cstdint>


namespace rune_caster {

namespace unicode {


// 유니코드 카테고리


enum class Category : uint8_t {

    Unknown = 0,

    Letter,

    Mark,

    Number,

    Punctuation,

    Symbol,

    Separator,

    Other

};


// 유니코드 스크립트


enum class Script : uint16_t {

    Unknown = 0,

    Latin,

    Hangul,

    Hiragana,

    Katakana,

    Han,

    Arabic,

    Cyrillic,

    Greek,

    Hebrew

};


// 정규화 형식


enum class NormalizationForm {

    NFC,  // Canonical Decomposition, followed by Canonical Composition

    NFD,  // Canonical Decomposition

    NFKC, // Compatibility Decomposition, followed by Canonical Composition

    NFKD  // Compatibility Decomposition

};


// 유니코드 문자 속성 검사 함수들


constexpr bool is_ascii(char32_t cp) noexcept {

    return cp <= 0x7F;

}


constexpr bool is_latin(char32_t cp) noexcept {

    return (cp >= 0x0041 && cp <= 0x005A) ||  // A-Z

           (cp >= 0x0061 && cp <= 0x007A) ||  // a-z

           (cp >= 0x00C0 && cp <= 0x00FF);    // Latin-1 Supplement

}


constexpr bool is_hangul(char32_t cp) noexcept {

    return (cp >= 0x1100 && cp <= 0x11FF) ||  // Hangul Jamo

           (cp >= 0x3130 && cp <= 0x318F) ||  // Hangul Compatibility Jamo

           (cp >= 0xAC00 && cp <= 0xD7AF);    // Hangul Syllables

}


constexpr bool is_hiragana(char32_t cp) noexcept {

    return cp >= 0x3040 && cp <= 0x309F;

}


constexpr bool is_katakana(char32_t cp) noexcept {

    return cp >= 0x30A0 && cp <= 0x30FF;

}


constexpr bool is_kanji(char32_t cp) noexcept {

    return (cp >= 0x4E00 && cp <= 0x9FFF) ||  // CJK Unified Ideographs

           (cp >= 0x3400 && cp <= 0x4DBF);    // CJK Extension A

}


constexpr bool is_whitespace(char32_t cp) noexcept {

    return cp == U' ' || cp == U'\t' || cp == U'\n' || cp == U'\r' ||

           cp == U'\v' || cp == U'\f' || cp == 0x00A0;  // Non-breaking space

}


constexpr bool is_letter(char32_t cp) noexcept {

    return is_latin(cp) || is_hangul(cp) || is_hiragana(cp) ||

           is_katakana(cp) || is_kanji(cp);

}


constexpr bool is_digit(char32_t cp) noexcept {

    return cp >= U'0' && cp <= U'9';

}


constexpr bool is_punctuation(char32_t cp) noexcept {

    return (cp >= 0x0021 && cp <= 0x002F) ||  // ! " # $ % & ' ( ) * + , - . /

           (cp >= 0x003A && cp <= 0x0040) ||  // : ; < = > ? @

           (cp >= 0x005B && cp <= 0x0060) ||  // [ \ ] ^ _ `

           (cp >= 0x007B && cp <= 0x007E);    // { | } ~

}


// 카테고리 결정 함수


constexpr Category get_category(char32_t cp) noexcept {

    if (is_letter(cp)) return Category::Letter;

    if (is_digit(cp)) return Category::Number;

    if (is_punctuation(cp)) return Category::Punctuation;

    if (is_whitespace(cp)) return Category::Separator;

    return Category::Unknown;

}


// 스크립트 결정 함수


constexpr Script get_script(char32_t cp) noexcept {

    if (is_latin(cp)) return Script::Latin;

    if (is_hangul(cp)) return Script::Hangul;

    if (is_hiragana(cp)) return Script::Hiragana;

    if (is_katakana(cp)) return Script::Katakana;

    if (is_kanji(cp)) return Script::Han;

    return Script::Unknown;

}


} // namespace unicode

} // namespace rune_caster

rune_caster::unicode
Definition concepts.hpp:10

rune_caster::unicode::Category
Category
Definition unicode.hpp:9

rune_caster::unicode::Category::Symbol
@ Symbol
Definition unicode.hpp:15

rune_caster::unicode::Category::Separator
@ Separator
Definition unicode.hpp:16

rune_caster::unicode::Category::Letter
@ Letter
Definition unicode.hpp:11

rune_caster::unicode::Category::Other
@ Other
Definition unicode.hpp:17

rune_caster::unicode::Category::Unknown
@ Unknown
Definition unicode.hpp:10

rune_caster::unicode::Category::Number
@ Number
Definition unicode.hpp:13

rune_caster::unicode::Category::Mark
@ Mark
Definition unicode.hpp:12

rune_caster::unicode::Category::Punctuation
@ Punctuation
Definition unicode.hpp:14

rune_caster::unicode::is_kanji
constexpr bool is_kanji(char32_t cp) noexcept
Definition unicode.hpp:67

rune_caster::unicode::is_whitespace
constexpr bool is_whitespace(char32_t cp) noexcept
Definition unicode.hpp:72

rune_caster::unicode::NormalizationForm
NormalizationForm
Definition unicode.hpp:35

rune_caster::unicode::NormalizationForm::NFKC
@ NFKC
Definition unicode.hpp:38

rune_caster::unicode::NormalizationForm::NFKD
@ NFKD
Definition unicode.hpp:39

rune_caster::unicode::NormalizationForm::NFD
@ NFD
Definition unicode.hpp:37

rune_caster::unicode::NormalizationForm::NFC
@ NFC
Definition unicode.hpp:36

rune_caster::unicode::is_hangul
constexpr bool is_hangul(char32_t cp) noexcept
Definition unicode.hpp:53

rune_caster::unicode::get_category
constexpr Category get_category(char32_t cp) noexcept
Definition unicode.hpp:94

rune_caster::unicode::is_ascii
constexpr bool is_ascii(char32_t cp) noexcept
Definition unicode.hpp:43

rune_caster::unicode::Script
Script
Definition unicode.hpp:21

rune_caster::unicode::Script::Greek
@ Greek
Definition unicode.hpp:30

rune_caster::unicode::Script::Arabic
@ Arabic
Definition unicode.hpp:28

rune_caster::unicode::Script::Cyrillic
@ Cyrillic
Definition unicode.hpp:29

rune_caster::unicode::Script::Hangul
@ Hangul
Definition unicode.hpp:24

rune_caster::unicode::Script::Latin
@ Latin
Definition unicode.hpp:23

rune_caster::unicode::Script::Unknown
@ Unknown
Definition unicode.hpp:22

rune_caster::unicode::Script::Hiragana
@ Hiragana
Definition unicode.hpp:25

rune_caster::unicode::Script::Hebrew
@ Hebrew
Definition unicode.hpp:31

rune_caster::unicode::Script::Han
@ Han
Definition unicode.hpp:27

rune_caster::unicode::Script::Katakana
@ Katakana
Definition unicode.hpp:26

rune_caster::unicode::is_hiragana
constexpr bool is_hiragana(char32_t cp) noexcept
Definition unicode.hpp:59

rune_caster::unicode::is_letter
constexpr bool is_letter(char32_t cp) noexcept
Definition unicode.hpp:77

rune_caster::unicode::is_punctuation
constexpr bool is_punctuation(char32_t cp) noexcept
Definition unicode.hpp:86

rune_caster::unicode::is_digit
constexpr bool is_digit(char32_t cp) noexcept
Definition unicode.hpp:82

rune_caster::unicode::get_script
constexpr Script get_script(char32_t cp) noexcept
Definition unicode.hpp:103

rune_caster::unicode::is_katakana
constexpr bool is_katakana(char32_t cp) noexcept
Definition unicode.hpp:63

rune_caster::unicode::is_latin
constexpr bool is_latin(char32_t cp) noexcept
Definition unicode.hpp:47

rune_caster
Definition caster.hpp:9