Искусственный интеллект (ИИ)Новости Китая

Отечественные модели ИИ справляются с уникальными требованиями кантонского языка

Культурные элементы, разговорная лексика требуют локальных решений, говорят эксперты

Искусственный интеллект в Китае. «Есть ли жена в торте с женой?» спросил Хейсон Хэ Лиси (Heyson He Lixi), влиятельный человек, продвигающий кантонский язык.

«На самом деле жены в пироге нет, это просто традиционное гонконгское пирожное», – ответил Sensechat, первая в мире большая языковая модель кантонского языка, продукт, подобный ChatGPT, на свободном кантонском языке.

Он задал более сложный вопрос: «Что такое „печальный рис “?».

«“Печальный рис”, известный деликатес в Гонконге, получил свое название от шедевра боевых искусств „Возвращение героев Кондора“ гонконгского писателя Цзинь Юна. В романе герой Ян Го переживает глубокую скорбь после потери своей возлюбленной Сяолуннюй», – ответил Sensechat.

Хэ был поражен – это был первый искусственный интеллект, с которым он столкнулся и который продемонстрировал глубокое понимание кантонской культуры.

Он родился в 1998 году, увлекается кантонским языком и создает видеоролики, пропагандирующие этот язык, еще со времен учебы в колледже. За эти годы он собрал базу поклонников, превышающую 700 000 человек, на различных онлайн-платформах, включая YouTube и популярные социальные сети материкового Китая, такие как Bilibili, Xiaohongshu и Douyin. В связи с недавним увлечением искусственным интеллектом он начал снимать видеоролики, оценивающие способность инструментов понимать кантонский язык.

Результаты оказались неутешительными. Многие большие языковые модели (LLM) и программное обеспечение ИИ, разработанные на материке, не могут распознать кантонский язык фонетически. Некоторые программы ИИ, разработанные на Западе, могут слушать кантонский язык, но не могут точно на нем говорить. Например, ChatGPT часто смешивает кантонский с мандаринским. Suno, инструмент ИИ с большой языковой моделью, специализирующийся на создании песен, может в некоторой степени произносить кантонский язык, но его основной задачей остается создание музыки.

В июле компания Sensetime Group, разработчик ИИ из Гонконга, представила Sensechat, кантонскую версию своего собственного LLM, и объявила, что она будет доступна бесплатно для гонконгских пользователей в течение неопределенного времени.

По рекомендации друга Хэ скачал Sensechat.

«Я на 85 процентов удовлетворен работой Sensechat», – сказал он. «Приложение еще требует доработки, но оно одно из немногих, которое действительно понимает кантонский язык».

Приложение подчеркивает одну из уникальных черт кантонского языка – его разговорный характер.

Произношение кантонского языка предполагает широкое использование модальных частиц, которые часто используются в конце предложений для обозначения настроения. Эти частицы обычно остаются незамеченными большинством инструментов искусственного интеллекта, но Sensechat эффективно их улавливает.

Что касается письменного текста, то Sensechat способен понимать и отражать нюансы двух форм кантонского языка. В нем есть стандартизированная форма, используемая в официальных ситуациях, подобно мандаринскому, и фонетический стиль для повседневного использования. По его словам, эта особенность часто упускается из виду другими крупными языковыми моделями.

Он записал свое общение с Sensechat и выложил его в сеть, собрав более 150 000 просмотров. «Носители кантонского языка действительно нуждаются в таком инструменте», – сказал он.

Отечественные модели ИИ. Размер данных имеет значение

Обучение LLM обычно состоит из трех этапов, говорит Цао Цзяньнун (Cao Jiannong), профессор кафедры вычислительной техники Гонконгского политехнического университета.

На первом этапе требуется предварительное обучение с использованием большого объема данных, а затем тонкая настройка с использованием высококачественных данных. На третьем этапе люди должны согласовать результаты работы LLM с местной культурой, этикой, моралью, законами и другими правилами, чтобы ограничить риск создания неточного, предвзятого или противозаконного контента.

По словам Цао, разработка кантонского LLM сталкивается с трудностями на всех трех этапах.

Несмотря на относительно развитую интернет-инфраструктуру Гонконга, кантонский контент в сети представлен в недостаточном количестве. Одним из основных факторов, способствующих такому дефициту, является то, что, хотя кантонский язык широко распространен в повседневной жизни, письменная форма кантонского языка – китайская.

Кроме того, английский язык уже давно является официальным языком Гонконга. Следовательно, значительная часть городской онлайн-информации, включая официальные архивные документы в таких областях, как право, финансы, политика и медицина, доступна преимущественно на английском языке, говорит Цао.

По словам Фрэнсиса Фонг По-киу (Francis Fong Po-kiu), почетного президента Гонконгской федерации информационных технологий, местной бизнес-ассоциации, связанной с информационными технологиями, магистры права в своей подготовке в значительной степени полагаются на обилие данных. По его словам, без данных просто невозможно разработать языковую модель.

Читайте и другие НОВОСТИ КИТАЯ  Частные компании в Китае получают поддержку китайского правительства

Нехватка литературы

Кантонские веб-ресурсы страдают не только от недостатка количества, но и от недостатка качества, говорит Цао.

Когда дело доходит до письменных материалов, Гонконг не уделяет приоритетного внимания литературе, что приводит к нехватке качественных кантонских литературных произведений, говорит Кит Ли Кинг-вах (Keith Li King-wah), председатель Гонконгской ассоциации индустрии беспроводных технологий.

Большинство доступных текстов на кантонском языке взяты из онлайн-форумов и социальных сетей, и часто содержат некачественную и даже оскорбительную лексику, что может привести к тому, что модели ИИ будут выдавать грубый контент, сказал Ли.

Сбор речевых данных представляет собой еще одну проблему.

Несмотря на доступность видео на кантонском языке в Интернете, например, фильмов и телевизионных драм, их невозможно использовать из-за фонового шума, говорит Альберт Лам Юн-сан (Albert Lam Yun-sang), директор по технологиям и главный ученый Fano Labs, гонконгского стартапа, специализирующегося на речевых и языковых технологиях.

Помимо недостатка данных, еще одним препятствием для обучения модели искусственного интеллекта являются сложные лингвистические особенности кантонского языка.

Журнал Economist проанализировал время изучения языка и обнаружил, что для овладения кантонским языком требуется 88 недель обучения, что ставит его в один ряд с мандаринским, арабским, японским и корейским языками в пятерке самых сложных для изучения.

Лу Левэй (Lu Lewei), директор исследовательского института Sensetime Research Institute, говорит, что кантонский язык очень разговорный и имеет множество отклонений. В нем девять тонов, и даже небольшое изменение в произношении может изменить смысл слова.

Кроме того, в языке смешались китайский и английский языки, а также старые и современные термины.

При языковом моделировании простота языка дает преимущества. По словам Лама, чем сложнее язык, тем труднее модели ИИ его изучить.

Кроме того, в основе кантонского языка лежит местная культура, что может быть сложной задачей для тех, кто занимается согласованием результатов больших языковых моделей, говорит Цао.

Отечественные модели ИИ. Насущная необходимость

Несмотря на трудности, связанные с созданием кантонских моделей ИИ, спрос на них неоспорим, говорит Фонг из Гонконгской федерации информационных технологий.

Мировое население, говорящее на кантонском языке, составляет около 120 миллионов человек, и 85,2 миллиона из них – носители кантонского языка.

В Гонконге 6,3 миллиона жителей, или 88,2 процента населения города, используют кантонский в качестве разговорного языка. В других городах, входящих в зону Большого залива Гуандун-Гонконг-Макао, кантонский язык является преобладающим диалектом: в провинции Гуандун на нем разговаривают 67 миллионов жителей.

В будущем ИИ будет сродни сегодняшним компьютерам и станет инструментом для широких слоев населения. По словам Цао, без инструментов ИИ для кантонского языка носители только кантонского языка могут столкнуться со значительными неудобствами и маргинализацией как в офлайновом, так и в онлайновом мире.

Для города недостаток знаний в области ИИ может привести к снижению производительности в таких секторах, как образование, здравоохранение, финансы и юриспруденция. Эти ограничения могут помешать развитию всего города, добавил Цао.

По словам Фонга, модели ИИ из других стран или регионов могут с трудом воспринимать кантонскую культуру. Это может привести к культурным или политическим ошибкам, что приведет к распространению неверных сообщений.

По мнению Фонга, зависимость от внешних моделей ИИ может сделать конфиденциальность и безопасность уязвимыми.

Например, правительственные чиновники могут столкнуться с риском для национальной безопасности, а местные компании – с утечкой данных, если они по неосторожности передадут конфиденциальную информацию моделям, разработанным в иностранных юрисдикциях, добавил он.

Фонг призвал правительство Специального административного района Гонконг и местные организации развивать кантонские магистратуры.

В июле Сунь Дун (Sun Dong), секретарь по инновациям, технологиям и промышленности Гонконга, объявил, что правительство САР сотрудничает с местными университетами для разработки большой языковой модели на базе Гонконга.

В настоящее время в пробном режиме используется приложение для совместной работы с документами для государственных служащих.

Модель уже внедрена в департаменте Сунь, и со временем система станет доступна всем жителям Гонконга, сказал секретарь.

В бюро сообщили, что планируется распространить пилотное приложение на три других государственных ведомства, но не сообщили, когда жители Гонконга получат к нему доступ.

Фонг сказал, что если приложение будет успешно запущено, правительственный LLM будет иметь много преимуществ.

Это станет положительным шагом в решении проблемы ограничения использования некоторых западных моделей ИИ в Гонконге. Кроме того, внедрение локализованной модели ИИ сможет защитить конфиденциальность и обеспечить большее удобство для жителей, сказал Фонг.

Читайте и другие НОВОСТИ КИТАЯ  Банки Китая запускают трансграничные продукты по управлению активами в GBA

По словам Цао, пока неясно, какие именно функции может предложить правительственная модель ИИ и как она будет отличаться от других подобных продуктов.

«Я не думаю, что правительство провело достаточное исследование того, что оно хочет сделать», – сказал Цао.

Местные стартапы

Местные технологические компании, тем временем, активно удовлетворяют потребности кантоноязычного рынка.

Один из стартапов, Votee AI, в этом году разработал кантонский LLM с открытым исходным кодом.

После нескольких лет работы на местном рынке Votee AI собрал значительный объем данных по кантонскому языку из открытых источников, а также первичные данные.

Используя подход, ориентированный на сообщество, они также сотрудничали с местными кантонскими лингвистами и исследователями ИИ, включая команду, создавшую онлайн-словарь кантонского языка «words.hk», чтобы уловить нюансы гонконгской речи.

Sensetime также накопила огромное количество внутренних данных с открытым исходным кодом.

Компания синтезировала данные, используя передовые технологии, и покупала дополнительную информацию по внешним каналам для сбора данных.

Для борьбы с нехваткой высококачественных данных на кантонском языке компания Sensetime также собрала аудиоданные на кантонском языке у сотен своих местных сотрудников.

Среди клиентов Sensechat – поставщики услуг для клиентов, финансовые учреждения, юридические фирмы, медицинские компании и другие.

Для жителей Гонконга компания обещает предоставлять сервис бесплатно на неопределенный срок как в веб-версии, так и в мобильном приложении.

Один из местных инсайдеров технологической индустрии, пожелавший остаться неизвестным, сказал, что Sensechat следует открыть доступ к своей технологии, чтобы больше жителей и организаций могли свободно пользоваться ею на благо города.

Попробовав платформу Sensechat, он сказал, что ее понимание некоторых гонконгских сленгов могло бы быть более точным. Тем не менее, «следует признать, что Sensechat заполнил пустоту на местном рынке», – сказал он.

Отечественные модели ИИ. Культурные корни

По словам Ли из Гонконгской ассоциации индустрии беспроводных технологий, помимо разработки местных моделей ИИ, следует поощрять существующие основные языковые модели, чтобы они улучшали свои функции кантонского языка.

Однако основные языковые модели ИИ разрабатываются в основном коммерческими организациями на Западе. Без спроса на рынке они могут не захотеть улучшать кантонский язык своих продуктов.

Ли считает, что правительство САР Гонконг и местные организации должны взять на себя инициативу по сбору данных о кантонском языке, оцифровке культурного контента и открытому обмену этими ресурсами для обогащения кантонского массива информации.

Носители кантонского языка также могут активно использовать язык для взаимодействия с основными языковыми моделями ИИ.

Эти действия могут продемонстрировать разработчикам моделей ИИ, что на кантонский язык существует рыночный спрос, а взаимодействие с этими моделями может также улучшить их понимание кантонской культуры.

По словам Ли, ключ к тому, чтобы побудить больше людей использовать кантонский язык, заключается в том, чтобы сделать кантонскую культуру привлекательной.

Язык – это не просто средство общения, в нем заключена культурная сущность и самобытность его носителей, сказал он.

Маргинальный статус кантонского языка в цифровой сфере является отражением снижения культурного значения региона.

В 1970-х и 1980-х годах Гонконг, хотя и был всего лишь городом, имел такое культурное влияние, что кантонский был популярным языком во всем мире, говорит Ли.

«В то время весь мир смотрел гонконгские фильмы и телешоу, знал Джеки Чана и Брюса Ли и пел кантонские песни. Однако в наши дни даже многие студенты в Гонконге не могут говорить на кантонском», – сказал он.

«Государственная политика должна быть направлена не только на технологии, но и на культуру».

По его словам, в детстве он учился кантонскому языку у своих бабушки и дедушки, что впоследствии позволило ему владеть языком лучше, чем другие школьники. Уверенность, которую это ему придало, побудила его стать кантонским блогером.

Однако с возрастом кантонский язык стал настолько маргинальным, что даже устройства и программное обеспечение с голосовым управлением в его доме не понимали кантонских команд.

Он мог общаться с этими устройствами на мандаринском и английском языках, но его бабушка и дедушка, говорящие только на кантонском, не могли идти в ногу со временем.

Он надеется, что кантонские LLM когда-нибудь помогут его пожилым бабушке и дедушке управлять своей повседневной жизнью с помощью приложений с голосовым управлением, способных понимать кантонский язык.

Новость Китая “Отечественные модели ИИ справляются с уникальными требованиями кантонского языка” подготовлена Порталом PRC.TODAY по материалам сайта China Daily.

Если вам понравилась новость или появились вопросы, оставьте ваш комментарий или обсудите эту новость в нашем Telegram-канале 

https://t.me/PRC_TODAY
Мы в Telegram

посмотрите другие новости Китая на prc.today

Мультимодальные LLM: новые горизонты искусственного интеллекта

Поделиться:

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Back to top button