Logbot | #g0v.tw

#g0v.tw

AUTO⬇

00:34:25 ⓢ isabelhou 不限g0v使用，開放授權。
18:50:27 ⓢ alexpai 大家好，我是線上媒體《樹冠生活》的主編，先前有請各位協助回覆一份採訪共筆，現在已完成文章初稿（真的久等了），大家如果方便再請協助校稿，有需要修正或調整的部分歡迎不吝指教，再請幫我標註於文件中，萬分感謝。（校稿期限：8/4(二)22:00以前）
18:50:28 ⓢ ↵ 文章校稿：
18:50:29 ⓢ ↵ https://docs.google.com/document/d/1ykMbP5QCwg9yRQlytIM-k9wsJhRFGEt9gRe3NvBRjNY/edit?usp=sharing
18:50:30 ⓢ ↵ 採訪共筆：
18:50:31 ⓢ ↵ https://g0v.hackmd.io/_sxBwlmTS52ylsJBqYzyLg
19:45:25 ⓢ felixtypingmonkey 請問文章校稿這個階段會確認排版方式嗎？
19:45:26 ⓢ ↵ 舉例來說，英文跟中文之間應該要有半形空白隔開、中文與數字之間需要增加空格。
19:45:27 ⓢ ↵ 還有文章後半段談到 g0v summit 時中間的空格是全形空格，應該為半形。
19:45:28 ⓢ ↵ https://github.com/sparanoid/chinese-copywriting-guidelines
19:45:29 ⓢ ↵ 這個排版規範目前蘋果跟微軟都有使用，請參考。
19:58:59 ⓢ alexpai 好的！這個部分我會再進行調整，感謝您。
23:54:51 ⓢ peter.w 您好，我是 Articut NLP 系統的發明人。
23:54:52 ⓢ ↵ 我思考過台文斷詞的問題，即便是資料量不多，但仍有「台羅 (拼音)」和「台文正字 (字符)」兩種資料。
23:54:53 ⓢ ↵ 而台羅沒有斷詞的問題，母語者在書寫時自然就會用 - 和空格進行斷詞。
23:54:54 ⓢ ↵ 換言之，我們其實可以直接把「字符」轉成「拼音」然後讓模型去學習「拼音」的詞彙斷點即可。
23:54:55 ⓢ ↵ 剩下的問題反而是這種做法沒有 POS/NER。