Logbot
⬆
⬇
#g0v.tw
2020-08-02
2024-04-25
2024-04-24
2024-04-23
2024-04-22
2024-04-21
select..
AUTO⬇
00:34:25
ⓢ isabelhou
不限g0v使用,開放授權。
18:50:27
ⓢ alexpai
大家好,我是線上媒體《樹冠生活》的主編,先前有請各位協助回覆一份採訪共筆,現在已完成文章初稿(真的久等了),大家如果方便再請協助校稿,有需要修正或調整的部分歡迎不吝指教,再請幫我標註於文件中,萬分感謝。(校稿期限:8/4(二)22:00以前)
18:50:28
ⓢ ↵
文章校稿:
18:50:29
ⓢ ↵
https://docs.google.com/document/d/1ykMbP5QCwg9yRQlytIM-k9wsJhRFGEt9gRe3NvBRjNY/edit?usp=sharing
18:50:30
ⓢ ↵
採訪共筆:
18:50:31
ⓢ ↵
https://g0v.hackmd.io/_sxBwlmTS52ylsJBqYzyLg
19:45:25
ⓢ felixtypingmonkey
請問文章校稿這個階段會確認排版方式嗎?
19:45:26
ⓢ ↵
舉例來說,英文跟中文之間應該要有半形空白隔開、中文與數字之間需要增加空格。
19:45:27
ⓢ ↵
還有文章後半段談到 g0v summit 時中間的空格是全形空格,應該為半形。
19:45:28
ⓢ ↵
https://github.com/sparanoid/chinese-copywriting-guidelines
19:45:29
ⓢ ↵
這個排版規範目前蘋果跟微軟都有使用,請參考。
19:58:59
ⓢ alexpai
好的!這個部分我會再進行調整,感謝您。
23:54:51
ⓢ peter.w
您好,我是 Articut NLP 系統的發明人。
23:54:52
ⓢ ↵
我思考過台文斷詞的問題,即便是資料量不多,但仍有「台羅 (拼音)」和「台文正字 (字符)」兩種資料。
23:54:53
ⓢ ↵
而台羅沒有斷詞的問題,母語者在書寫時自然就會用 - 和空格進行斷詞。
23:54:54
ⓢ ↵
換言之,我們其實可以直接把「字符」轉成「拼音」然後讓模型去學習「拼音」的詞彙斷點即可。
23:54:55
ⓢ ↵
剩下的問題反而是這種做法沒有 POS/NER。
Date: