OpenNET: Новости

/ Для программиста / Машинное обучение, AI
·	03.03.2025	В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей (46 +23)
	Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek и ChatGPT). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайт данных с содержимым 2.67 миллиардов web-страниц... (46 +23) обсуждение \| весь текст

·	01.03.2025	Открыт код распределённой файловой системы 3FS, используемой в DeepSeek (68 +30)
	Опубликован исходный код распределённой файловой системы 3FS (Fire-Flyer File System), разработанной для использования в инфраструктурах тренировки и выполнения крупных моделей машинного обучения. ФС входит в состав AI-платформы Fire-Flyer и используется китайской компанией DeepSeek, развивающей языковые модели, охватывающие более 600 миллиардов параметров. Целью создания 3FS называется предоставление совместного хранилища для упрощения разработки распределённых приложений. Работа ФС оптимизирована для использования в сетях RDMA и хранения информации на SSD-накопителях. Код 3FS написан на языке С++ (ChunkEngine на Rust) и открыт под лицензией MIT... (68 +30) обсуждение \| весь текст

·	17.02.2025	Опубликована AI-модель синтеза речи Zonos, поддерживающая клонирование голоса (91 +25)
	Компания Zyphra опубликовала под лицензией Apache 2.0 первый бета-выпуск AI-модели для синтеза речи Zonos. Предлагаемый вместе с моделью инструментарий поддерживает функцию клонирования голоса, позволяющую синтезировать речь желаемым голосом, для воспроизведения которого модели достаточно предоставить эталонную запись речи говорящего, продолжительностью 10-30 секунд. Поддерживается синтез на английском, японском, китайском, французском и немецком языках... (91 +25) обсуждение \| весь текст

·	30.01.2025	Утечка конфиденциальной информации DeepSeek из-за неограниченного доступа к БД с логами (81 +30)
	Исследователи безопасности из команды Wiz Research выявили общедоступную базу данных с информацией, используемой в AI-сервисах компании DeepSeek. Из-за отсутствия должного ограничения доступа к хранилищу логов, любой желающий мог получить конфиденциальную информацию о работе сервисов DeepSeek. В БД хранилось более миллиона записей, включающих логи с историей сообщений пользователей в AI-чате DeepSeek, ключи доступа к API, детальную информацию о работе бэкендов и метаданные, используемые в работе различных систем... (81 +30) обсуждение \| весь текст

·	24.01.2025	Фонд СПО признал Llama 3.1 несвободной лицензией (92 +20)
	Фонд Свободного ПО опубликовал результаты анализа лицензии Llama 3.1, под которой распространяются модели машинного обучения компании Meta. Фонд СПО признал лицензию Llama 3.1 несвободной и рекомендовал не использовать распространяемые под ней продукты. Отмечается, что Meta вводит пользователей в заблуждение, преподнося лицензию Llama 3.1, как предоставляющую определённые свободы. На деле лицензия Llama 3.1 лишает пользователей свободы, передаёт дополнительные полномочия лицензиарам и навязывает политику приемлемого использования... (92 +20) обсуждение \| весь текст

·	21.12.2024	Представлен открытый голосовой AI-ассистент Home Assistant Voice (99 +24)
	Проект Home Assistant, развивающий открытую платформу домашней автоматизации, объявил о разработке аппаратного устройства Home Assistant Voice с реализацией голосового ассистента. Устройство может применяться для управлений умным домом, выполнения задач и формирования ответов на вопросы пользователя при взаимодействии на естественном языке. Схемы, распайки платы, макеты для печати корпуса на 3D-принтере распространяются под открытыми лицензиями. Код прошивки доступен под лицензией MIT. Готовое устройство выставлено в продажу за $59... (99 +24) обсуждение \| весь текст

·	18.12.2024	Опубликован BoN, метод обхода фильтров больших языковых моделей (100 +39)
	Выявлен новый метод атаки, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в AI-сервисах на основе больших языковых моделей. Метод, который получил кодовое имя BoN (Best-of-N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet - в 78%, а Gemini Pro - в 50%. Инструментарий для проведения атаки опубликован под лицензией MIT... (100 +39) обсуждение \| весь текст

·	12.11.2024	DeepMind открыл код AlphaFold 3, AI-системы моделирования структуры белков (39 +26)
	Компания Google DeepMind опубликовала исходные тексты системы машинного обучения AlphaFold 3, предназначенной для предсказания трёхмерной структуры белков и моделирования взаимодействия белков с другими типами молекул. За создание алгоритмов машинного обучения, реализованных во второй версии AlphaFold, в этом году присуждена Нобелевская премия по химии. Связанный с AlphaFold 3 инструментарий написан на Python и C++, и распространяется под лицензией CC BY-NC-SA 4.0. Натренированные модели предоставляются на основе пользовательского соглашения. Отдельно запущен сервер, позволяющий экспериментировать с AlphaFold 3 в online-режиме... (39 +26) обсуждение \| весь текст

·	05.11.2024	Обновление Firefox 132.0.1. Тестирование AI-модели Mozilla для описания изображений (80 +6)
	Доступен корректирующий выпуск Firefox 132.0.1, в котором устранены проблемы с воспроизведением видео на некоторых сайтах, использующих DRM-защиту Widevine L3, таких как nintendo.com. В новой версии также устранена ошибка, приводящая к сбросу настроек темы оформления в значение по умолчанию после перезапуска Firefox... (80 +6) обсуждение \| весь текст

·	04.11.2024	Опубликована открытая AI-модель hertz-dev для полнодуплексного голосового общения (44 +19)
	Компания Standard Intelligence объявила о публикации hertz-dev, первой открытой AI-модели для синтеза речи в полнодуплексном режиме, которая может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, и обеспечивая взаимодействие в стиле живого человеческого общения без задержек, напоминающих прерывистый телефонный разговор. Наработки проекта распространяются под лицензией Apache 2.0... (44 +19) обсуждение \| весь текст

·	02.11.2024	Google использовал большую языковую модель для выявления уязвимости в SQLite (134 +17)
	Исследователи из подразделений Google Project Zero и Google DeepMind опубликовали отчёт о развитии AI-системы Big Sleep, построенной на базе большой языковой модели Gemini 1.5 Pro и предназначенной для определения уязвимостей в исходном коде. Достижением проекта стало выявление с использованием Big Sleep первой пригодной для эксплуатации и ранее неизвестной уязвимости в существующем проекте. Уязвимость выявлена в результате проверки AI-системой кодовой базы СУБД SQLite и приводит к переполнению за нижнюю границу буфера в стеке (buffer underflow). Проблема обнаружена в недавно принятом коде и устранена до его попадания в финальный релиз SQLite 3.47.0... (134 +17) обсуждение \| весь текст

·	31.10.2024	Инициатива по отмене определения открытой AI-системы, как обесценивающего понятие Open Source (84 +39)
	Бредли Кун (Bradley M. Kuhn), исполнительный директор и один из создателей правозащитной организации Software Freedom Conservancy (SFC), выступил c критикой недавно опубликованного организацией OSI (Open Source Initiative) определения открытой AI-системы (Open Source AI). По мнению Куна организация OSI поторопилась с публикацией финального варианта определения и утвердила его без длительного всестороннего обсуждения и на начальном этапе становления подобных систем. Для сравнения определение Open Source было дано после многих лет размышлений и обсуждений. Что касается опубликованного определения открытой AI-системы, то на данной стадии его следовало назвать не определением, а рекомендацией... (84 +39) обсуждение \| весь текст

·	28.10.2024	Организация OSI выработала критерии открытости AI-систем (56 +15)
	Организация Open Source Initiative (OSI), занимающаяся проверкой лицензий на предмет соответствия критериям Open Source, утвердила документ Open Source AI Definition v1.0 (OSAID), в котором сформулировано определение открытого AI. AI-система может считаться открытой, если она соответствует следующим критериям:... (56 +15) обсуждение \| весь текст

·	22.09.2024	Обновление голосовых данных Mozilla Common Voice 19.0 (21 +10)
	Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 31.8 до 32.6 тысяч часов речи, из которых более 20 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 129 до 131... (21 +10) обсуждение \| весь текст

·	16.09.2024	Исследование Open Source в области машинного обучения и работы с данными в РФ (32 +22)
	Участники опенсорс-сообщества Университета ИТМО опубликовали результаты исследования, в котором проанализировали особенности и тенденции в развитии и использовании в России общемирового открытого ПО в области машинного обучения и работы с данными. В отчёте приведены мнения экспертов Яндекса, Сбера, Т-Банка, VK, Wildberries, Рокет Контрола, CodeScoring и МФТИ, проанализированы открытые данные из GitHub и смежных сервисов, построены рейтинги, графики и таблицы... (32 +22) обсуждение \| весь текст

Следующая страница (раньше) >>